論文の概要: AttEntropy: Segmenting Unknown Objects in Complex Scenes using the
Spatial Attention Entropy of Semantic Segmentation Transformers
- arxiv url: http://arxiv.org/abs/2212.14397v1
- Date: Thu, 29 Dec 2022 18:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:48:19.202708
- Title: AttEntropy: Segmenting Unknown Objects in Complex Scenes using the
Spatial Attention Entropy of Semantic Segmentation Transformers
- Title(参考訳): AttEntropy:セマンティックセグメンテーション変換器の空間的注意エントロピーを用いた複雑なシーンにおける未知物体のセグメンテーション
- Authors: Krzysztof Lis, Matthias Rottmann, Sina Honari, Pascal Fua, Mathieu
Salzmann
- Abstract要約: セマンティックセグメンテーショントランスの異なるバックボーン層の空間的注意度について検討する。
我々はこれを、未知のオブジェクトをさまざまな背景に分割するのに使用できるヒートマップを抽出することで活用する。
本手法はトレーニング不要であり,その計算オーバーヘッドは無視できる。
- 参考スコア(独自算出の注目度): 99.22536338338011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have emerged as powerful tools for many computer vision
tasks. It has been shown that their features and class tokens can be used for
salient object segmentation. However, the properties of segmentation
transformers remain largely unstudied. In this work we conduct an in-depth
study of the spatial attentions of different backbone layers of semantic
segmentation transformers and uncover interesting properties.
The spatial attentions of a patch intersecting with an object tend to
concentrate within the object, whereas the attentions of larger, more uniform
image areas rather follow a diffusive behavior. In other words, vision
transformers trained to segment a fixed set of object classes generalize to
objects well beyond this set. We exploit this by extracting heatmaps that can
be used to segment unknown objects within diverse backgrounds, such as
obstacles in traffic scenes.
Our method is training-free and its computational overhead negligible. We use
off-the-shelf transformers trained for street-scene segmentation to process
other scene types.
- Abstract(参考訳): ビジョントランスフォーマーは多くのコンピュータビジョンタスクの強力なツールとして登場した。
これらの特徴とクラストークンは、厳密なオブジェクトセグメンテーションに使用できることが示されている。
しかし、セグメンテーション変圧器の特性はほとんど研究されていない。
本研究では,セマンティクスセグメンテーショントランスフォーマの異なるバックボーン層の空間的注目度を詳細に検討し,興味深い特性を明らかにする。
対象物と交差するパッチの空間的注意は対象物に集中する傾向にあるが、より大きな、より均一な画像領域の注意は拡散的行動に従う。
言い換えれば、視覚変換器は、固定されたオブジェクトクラスの集合をこの集合を超えるオブジェクトに一般化するように訓練される。
トラフィックシーンの障害物など、未知のオブジェクトをさまざまな背景に分割するために使用できるヒートマップを抽出することで、これを活用します。
本手法はトレーニングフリーであり,計算オーバーヘッドを無視できる。
ストリートシーンセグメンテーションのために訓練されたオフザシェルフトランスフォーマーを用いて、他のシーンタイプを処理する。
関連論文リスト
- Self-supervised Object-Centric Learning for Videos [39.02148880719576]
実世界のシーケンスで複数のオブジェクトをセグメント化するための、最初の完全に教師なしの手法を提案する。
オブジェクト中心学習フレームワークは,各フレーム上のスロットにオブジェクトを空間的に結合し,これらのスロットをフレーム間で関連付ける。
提案手法は,YouTubeビデオにおける複雑・高多様性クラスの複数インスタンスの分割に成功している。
論文 参考訳(メタデータ) (2023-10-10T18:03:41Z) - Optical Flow boosts Unsupervised Localization and Segmentation [22.625511865323183]
ラベルなしビデオにおける光フローを用いた新たな損失項定式化を提案し, 自己教師型VT機能を互いに近づきやすくする。
提案した損失関数を用いて、当初静的画像に基づいて訓練された視覚変換器を微調整する。
論文 参考訳(メタデータ) (2023-07-25T16:45:35Z) - Transformer-Based Visual Segmentation: A Survey [122.45372317618309]
ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。
トランスフォーマー(Transformer)は、自然言語処理用に設計された自己アテンションに基づくニューラルネットワークの一種である。
トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。
論文 参考訳(メタデータ) (2023-04-19T17:59:02Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - Deep ViT Features as Dense Visual Descriptors [12.83702462166513]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を濃密な視覚ディスクリプタとして活用する。
これらの記述子は、コセグメンテーション、部分のコセグメンテーション、および対応を含む様々な応用を促進する。
論文 参考訳(メタデータ) (2021-12-10T20:15:03Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。