論文の概要: AttEntropy: On the Generalization Ability of Supervised Semantic Segmentation Transformers to New Objects in New Domains
- arxiv url: http://arxiv.org/abs/2212.14397v2
- Date: Sat, 09 Nov 2024 21:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 17:14:37.419909
- Title: AttEntropy: On the Generalization Ability of Supervised Semantic Segmentation Transformers to New Objects in New Domains
- Title(参考訳): AttEntropy:新しい領域におけるセマンティックセグメンテーション変換器の一般化能力について
- Authors: Krzysztof Lis, Matthias Rottmann, Annika Mütze, Sina Honari, Pascal Fua, Mathieu Salzmann,
- Abstract要約: 視覚変換器は、抽出する訓練を受けていない情報を符号化する優れた能力を持っている。
本研究は,意味的セグメンテーションのためのトランスフォーマーを教師付き方式で明示的に訓練する場合に,同様の現象が発生することを示す。
この情報は、道路障害物、ターミナルに駐車している航空機、月の岩、海洋の危険など様々な領域において、これまで見たことのないこれらのクラスからオブジェクトを分割するために使用することができる。
- 参考スコア(独自算出の注目度): 85.47416869556616
- License:
- Abstract: In addition to impressive performance, vision transformers have demonstrated remarkable abilities to encode information they were not trained to extract. For example, this information can be used to perform segmentation or single-view depth estimation even though the networks were only trained for image recognition. We show that a similar phenomenon occurs when explicitly training transformers for semantic segmentation in a supervised manner for a set of categories: Once trained, they provide valuable information even about categories absent from the training set. This information can be used to segment objects from these never-seen-before classes in domains as varied as road obstacles, aircraft parked at a terminal, lunar rocks, and maritime hazards.
- Abstract(参考訳): 印象的なパフォーマンスに加えて、視覚変換器は、彼らが抽出する訓練を受けていない情報を符号化する驚くべき能力を示した。
例えば、この情報は、ネットワークが画像認識のためにのみ訓練されているにもかかわらず、セグメンテーションやシングルビューの深さ推定に使用できる。
そこで本研究では,一連のカテゴリに対して,意味的セグメンテーションのためのトランスフォーマーを明示的にトレーニングする場合に,同様の現象が生じることを示す: トレーニングが完了すると,トレーニングセットから欠落したカテゴリについても,貴重な情報を提供する。
この情報は、道路障害物、ターミナルに駐車している航空機、月の岩、海洋の危険など様々な領域において、これまで見たことのないこれらのクラスからオブジェクトを分割するために使用することができる。
関連論文リスト
- Self-supervised Object-Centric Learning for Videos [39.02148880719576]
実世界のシーケンスで複数のオブジェクトをセグメント化するための、最初の完全に教師なしの手法を提案する。
オブジェクト中心学習フレームワークは,各フレーム上のスロットにオブジェクトを空間的に結合し,これらのスロットをフレーム間で関連付ける。
提案手法は,YouTubeビデオにおける複雑・高多様性クラスの複数インスタンスの分割に成功している。
論文 参考訳(メタデータ) (2023-10-10T18:03:41Z) - Optical Flow boosts Unsupervised Localization and Segmentation [22.625511865323183]
ラベルなしビデオにおける光フローを用いた新たな損失項定式化を提案し, 自己教師型VT機能を互いに近づきやすくする。
提案した損失関数を用いて、当初静的画像に基づいて訓練された視覚変換器を微調整する。
論文 参考訳(メタデータ) (2023-07-25T16:45:35Z) - Transformer-Based Visual Segmentation: A Survey [118.01564082499948]
ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。
トランスフォーマー(Transformer)は、自然言語処理用に設計された自己アテンションに基づくニューラルネットワークの一種である。
トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。
論文 参考訳(メタデータ) (2023-04-19T17:59:02Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - Deep ViT Features as Dense Visual Descriptors [12.83702462166513]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を濃密な視覚ディスクリプタとして活用する。
これらの記述子は、コセグメンテーション、部分のコセグメンテーション、および対応を含む様々な応用を促進する。
論文 参考訳(メタデータ) (2021-12-10T20:15:03Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。