論文の概要: Native Segmentation Vision Transformers
- arxiv url: http://arxiv.org/abs/2505.16993v1
- Date: Thu, 22 May 2025 17:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.539046
- Title: Native Segmentation Vision Transformers
- Title(参考訳): ネイティブセグメンテーションビジョントランス
- Authors: Guillem Brasó, Aljoša Ošep, Laura Leal-Taixé,
- Abstract要約: 本稿では,画像境界とセマンティックコンテンツに基づいてトークンを縮小した集合に動的に割り当てる,コンテンツ認識型グルーピンググルーピングを中心に構築された代替設計を提案する。
アーキテクチャの注意深い設計により,グループ化層のみによる強力なセグメンテーションマスクの出現が可能であり,追加のセグメンテーション固有のヘッドが不要であることを示す。
- 参考スコア(独自算出の注目度): 34.948673891967154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uniform downsampling remains the de facto standard for reducing spatial resolution in vision backbones. In this work, we propose an alternative design built around a content-aware spatial grouping layer, that dynamically assigns tokens to a reduced set based on image boundaries and their semantic content. Stacking our grouping layer across consecutive backbone stages results in hierarchical segmentation that arises natively in the feature extraction process, resulting in our coined Native Segmentation Vision Transformer. We show that a careful design of our architecture enables the emergence of strong segmentation masks solely from grouping layers, that is, without additional segmentation-specific heads. This sets the foundation for a new paradigm of native, backbone-level segmentation, which enables strong zero-shot results without mask supervision, as well as a minimal and efficient standalone model design for downstream segmentation tasks. Our project page is https://research.nvidia.com/labs/dvl/projects/native-segmentation.
- Abstract(参考訳): 一様ダウンサンプリングは、視覚バックボーンの空間分解能を低減するためのデファクトスタンダードのままである。
本研究では,画像境界とセマンティックコンテンツに基づいてトークンを縮小した集合に動的に割り当てる,コンテンツ認識型空間グルーピング層を中心に構築された代替設計を提案する。
グループ化レイヤを連続したバックボーンステージに重ねると、特徴抽出プロセスでネイティブに発生する階層的なセグメンテーションが発生し、結果として、Native Segmentation Vision Transformerが生成される。
アーキテクチャの注意深い設計により,グループ化層からのみ強力なセグメンテーションマスクが出現すること,すなわち,追加のセグメンテーション固有のヘッドを伴わずに実現可能であることを示す。
これは、マスクの監督なしに強力なゼロショット結果を可能にする、ネイティブなバックボーンレベルのセグメンテーションの新しいパラダイムの基盤と、下流セグメンテーションタスクのための最小かつ効率的なスタンドアロンモデル設計の基礎となる。
私たちのプロジェクトページはhttps://research.nvidia.com/labs/dvl/projects/native-segmentationです。
関連論文リスト
- A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning [50.40482222266927]
Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。
そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。
我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-17T08:29:33Z) - Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。
我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。
潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - Unsupervised Hierarchical Semantic Segmentation with Multiview
Cosegmentation and Clustering Transformers [47.45830503277631]
グループ化は自然に粒度のレベルを持ち、教師なしのセグメンテーションにおいて曖昧さを生み出す。
階層的セグメンテーショングループ(HSG)と呼ばれる,データ駆動型非教師付き階層的セグメンテーション手法を初めて提供する。
論文 参考訳(メタデータ) (2022-04-25T04:40:46Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。