論文の概要: AttEntropy: Segmenting Unknown Objects in Complex Scenes using the
Spatial Attention Entropy of Semantic Segmentation Transformers
- arxiv url: http://arxiv.org/abs/2212.14397v1
- Date: Thu, 29 Dec 2022 18:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:48:19.202708
- Title: AttEntropy: Segmenting Unknown Objects in Complex Scenes using the
Spatial Attention Entropy of Semantic Segmentation Transformers
- Title(参考訳): AttEntropy:セマンティックセグメンテーション変換器の空間的注意エントロピーを用いた複雑なシーンにおける未知物体のセグメンテーション
- Authors: Krzysztof Lis, Matthias Rottmann, Sina Honari, Pascal Fua, Mathieu
Salzmann
- Abstract要約: セマンティックセグメンテーショントランスの異なるバックボーン層の空間的注意度について検討する。
我々はこれを、未知のオブジェクトをさまざまな背景に分割するのに使用できるヒートマップを抽出することで活用する。
本手法はトレーニング不要であり,その計算オーバーヘッドは無視できる。
- 参考スコア(独自算出の注目度): 99.22536338338011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have emerged as powerful tools for many computer vision
tasks. It has been shown that their features and class tokens can be used for
salient object segmentation. However, the properties of segmentation
transformers remain largely unstudied. In this work we conduct an in-depth
study of the spatial attentions of different backbone layers of semantic
segmentation transformers and uncover interesting properties.
The spatial attentions of a patch intersecting with an object tend to
concentrate within the object, whereas the attentions of larger, more uniform
image areas rather follow a diffusive behavior. In other words, vision
transformers trained to segment a fixed set of object classes generalize to
objects well beyond this set. We exploit this by extracting heatmaps that can
be used to segment unknown objects within diverse backgrounds, such as
obstacles in traffic scenes.
Our method is training-free and its computational overhead negligible. We use
off-the-shelf transformers trained for street-scene segmentation to process
other scene types.
- Abstract(参考訳): ビジョントランスフォーマーは多くのコンピュータビジョンタスクの強力なツールとして登場した。
これらの特徴とクラストークンは、厳密なオブジェクトセグメンテーションに使用できることが示されている。
しかし、セグメンテーション変圧器の特性はほとんど研究されていない。
本研究では,セマンティクスセグメンテーショントランスフォーマの異なるバックボーン層の空間的注目度を詳細に検討し,興味深い特性を明らかにする。
対象物と交差するパッチの空間的注意は対象物に集中する傾向にあるが、より大きな、より均一な画像領域の注意は拡散的行動に従う。
言い換えれば、視覚変換器は、固定されたオブジェクトクラスの集合をこの集合を超えるオブジェクトに一般化するように訓練される。
トラフィックシーンの障害物など、未知のオブジェクトをさまざまな背景に分割するために使用できるヒートマップを抽出することで、これを活用します。
本手法はトレーニングフリーであり,計算オーバーヘッドを無視できる。
ストリートシーンセグメンテーションのために訓練されたオフザシェルフトランスフォーマーを用いて、他のシーンタイプを処理する。
関連論文リスト
- Open-World Semantic Segmentation Including Class Similarity [31.799000996671975]
本論文は, オープンワールドのセマンティックセマンティックセグメンテーション, すなわち, トレーニング中に未確認の物体を解釈する画像データの変種に対処する。
本稿では,クローズドワールドのセマンティックセグメンテーションを正確に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:11:19Z) - Optical Flow boosts Unsupervised Localization and Segmentation [22.625511865323183]
ラベルなしビデオにおける光フローを用いた新たな損失項定式化を提案し, 自己教師型VT機能を互いに近づきやすくする。
提案した損失関数を用いて、当初静的画像に基づいて訓練された視覚変換器を微調整する。
論文 参考訳(メタデータ) (2023-07-25T16:45:35Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Position Prediction as an Effective Pretraining Strategy [20.925906203643883]
本稿では,コンテンツからの位置を予測し,位置情報を提供することなく,コンテンツを再構築する手法を提案する。
提案手法は,教師なし/自己教師付き事前学習手法に匹敵する,強い教師付きトレーニングベースラインの改善をもたらす。
論文 参考訳(メタデータ) (2022-07-15T17:10:48Z) - Learning To Segment Dominant Object Motion From Watching Videos [72.57852930273256]
我々は,有意な移動物体セグメンテーションのための単純なフレームワークを構想する。このフレームワークは,有意なデータを必要としないし,有意な前処理や事前学習された光フローマップに依存しない。
層状画像表現に着想を得て,アフィンパラメトリックの動きに応じて画素領域をグループ化する手法を提案する。
これにより、トレーニングと推論の両方の入力として、RGBイメージペアのみを使用して、支配的なフォアグラウンドオブジェクトのセグメンテーションを学習することができる。
論文 参考訳(メタデータ) (2021-11-28T14:51:00Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - CrossTransformers: spatially-aware few-shot transfer [92.33252608837947]
非常に少ないデータを持つ新しいタスクを考えると、現代の視覚システムは驚くほど急速に低下する。
現代の視覚システムを支えるニューラルネットワーク表現が、どのようにして監督の崩壊にさらされているかを示す。
そこで我々は,伝達を良くする汎用的な機能を促進するために,自己指導型学習を提案する。
論文 参考訳(メタデータ) (2020-07-22T15:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。