論文の概要: AttEntropy: On the Generalization Ability of Supervised Semantic Segmentation Transformers to New Objects in New Domains
- arxiv url: http://arxiv.org/abs/2212.14397v3
- Date: Mon, 30 Dec 2024 00:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:01:02.555920
- Title: AttEntropy: On the Generalization Ability of Supervised Semantic Segmentation Transformers to New Objects in New Domains
- Title(参考訳): AttEntropy:新しい領域におけるセマンティックセグメンテーション変換器の一般化能力について
- Authors: Krzysztof Lis, Matthias Rottmann, Annika Mütze, Sina Honari, Pascal Fua, Mathieu Salzmann,
- Abstract要約: 視覚変換器は、抽出する訓練を受けていない情報を符号化する優れた能力を持っている。
本研究は,意味的セグメンテーションのためのトランスフォーマーを教師付き方式で明示的に訓練する場合に,同様の現象が発生することを示す。
この情報は、道路障害物、ターミナルに駐車している航空機、月の岩、海洋の危険など様々な領域において、これまで見たことのないこれらのクラスからオブジェクトを分割するために使用することができる。
- 参考スコア(独自算出の注目度): 85.47416869556616
- License:
- Abstract: In addition to impressive performance, vision transformers have demonstrated remarkable abilities to encode information they were not trained to extract. For example, this information can be used to perform segmentation or single-view depth estimation even though the networks were only trained for image recognition. We show that a similar phenomenon occurs when explicitly training transformers for semantic segmentation in a supervised manner for a set of categories: Once trained, they provide valuable information even about categories absent from the training set. This information can be used to segment objects from these never-seen-before classes in domains as varied as road obstacles, aircraft parked at a terminal, lunar rocks, and maritime hazards.
- Abstract(参考訳): 印象的なパフォーマンスに加えて、視覚変換器は、彼らが抽出する訓練を受けていない情報を符号化する驚くべき能力を示した。
例えば、この情報は、ネットワークが画像認識のためにのみ訓練されているにもかかわらず、セグメンテーションやシングルビューの深さ推定に使用できる。
そこで本研究では,一連のカテゴリに対して,意味的セグメンテーションのためのトランスフォーマーを明示的にトレーニングする場合に,同様の現象が生じることを示す: トレーニングが完了すると,トレーニングセットから欠落したカテゴリについても,貴重な情報を提供する。
この情報は、道路障害物、ターミナルに駐車している航空機、月の岩、海洋の危険など様々な領域において、これまで見たことのないこれらのクラスからオブジェクトを分割するために使用することができる。
関連論文リスト
- Open-World Semantic Segmentation Including Class Similarity [31.799000996671975]
本論文は, オープンワールドのセマンティックセマンティックセグメンテーション, すなわち, トレーニング中に未確認の物体を解釈する画像データの変種に対処する。
本稿では,クローズドワールドのセマンティックセグメンテーションを正確に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:11:19Z) - Optical Flow boosts Unsupervised Localization and Segmentation [22.625511865323183]
ラベルなしビデオにおける光フローを用いた新たな損失項定式化を提案し, 自己教師型VT機能を互いに近づきやすくする。
提案した損失関数を用いて、当初静的画像に基づいて訓練された視覚変換器を微調整する。
論文 参考訳(メタデータ) (2023-07-25T16:45:35Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Position Prediction as an Effective Pretraining Strategy [20.925906203643883]
本稿では,コンテンツからの位置を予測し,位置情報を提供することなく,コンテンツを再構築する手法を提案する。
提案手法は,教師なし/自己教師付き事前学習手法に匹敵する,強い教師付きトレーニングベースラインの改善をもたらす。
論文 参考訳(メタデータ) (2022-07-15T17:10:48Z) - Learning To Segment Dominant Object Motion From Watching Videos [72.57852930273256]
我々は,有意な移動物体セグメンテーションのための単純なフレームワークを構想する。このフレームワークは,有意なデータを必要としないし,有意な前処理や事前学習された光フローマップに依存しない。
層状画像表現に着想を得て,アフィンパラメトリックの動きに応じて画素領域をグループ化する手法を提案する。
これにより、トレーニングと推論の両方の入力として、RGBイメージペアのみを使用して、支配的なフォアグラウンドオブジェクトのセグメンテーションを学習することができる。
論文 参考訳(メタデータ) (2021-11-28T14:51:00Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - CrossTransformers: spatially-aware few-shot transfer [92.33252608837947]
非常に少ないデータを持つ新しいタスクを考えると、現代の視覚システムは驚くほど急速に低下する。
現代の視覚システムを支えるニューラルネットワーク表現が、どのようにして監督の崩壊にさらされているかを示す。
そこで我々は,伝達を良くする汎用的な機能を促進するために,自己指導型学習を提案する。
論文 参考訳(メタデータ) (2020-07-22T15:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。