論文の概要: Rethinking Decoders for Transformer-based Semantic Segmentation: Compression is All You Need
- arxiv url: http://arxiv.org/abs/2411.03033v1
- Date: Tue, 05 Nov 2024 12:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:49.440233
- Title: Rethinking Decoders for Transformer-based Semantic Segmentation: Compression is All You Need
- Title(参考訳): トランスフォーマーをベースとしたセマンティックセグメンテーションのためのデコーダ再考:圧縮は必要なすべて
- Authors: Qishuai Wen, Chun-Guang Li,
- Abstract要約: セマンティックセグメンテーションと圧縮の間には根本的な関係があることを論じる。
PrIncipled SemantiC SegemenTation(DEPICT)のためのホワイトボックス完全注意型Decoderを考案した。
ADE20Kで行った実験では、DEPICTはブラックボックスであるSegmenterよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 3.218600495900291
- License:
- Abstract: State-of-the-art methods for Transformer-based semantic segmentation typically adopt Transformer decoders that are used to extract additional embeddings from image embeddings via cross-attention, refine either or both types of embeddings via self-attention, and project image embeddings onto the additional embeddings via dot-product. Despite their remarkable success, these empirical designs still lack theoretical justifications or interpretations, thus hindering potentially principled improvements. In this paper, we argue that there are fundamental connections between semantic segmentation and compression, especially between the Transformer decoders and Principal Component Analysis (PCA). From such a perspective, we derive a white-box, fully attentional DEcoder for PrIncipled semantiC segemenTation (DEPICT), with the interpretations as follows: 1) the self-attention operator refines image embeddings to construct an ideal principal subspace that aligns with the supervision and retains most information; 2) the cross-attention operator seeks to find a low-rank approximation of the refined image embeddings, which is expected to be a set of orthonormal bases of the principal subspace and corresponds to the predefined classes; 3) the dot-product operation yields compact representation for image embeddings as segmentation masks. Experiments conducted on dataset ADE20K find that DEPICT consistently outperforms its black-box counterpart, Segmenter, and it is light weight and more robust.
- Abstract(参考訳): Transformerベースのセマンティックセグメンテーションの最先端メソッドは、一般的にTransformerデコーダを採用する。これは、クロスアテンションを通じてイメージ埋め込みから追加の埋め込みを抽出し、自己アテンションを介していずれかまたは両方のタイプの埋め込みを洗練し、ドットプロダクトを介して追加の埋め込みにプロジェクトイメージ埋め込みを組み込むのに使用される。
その顕著な成功にもかかわらず、これらの経験的設計は理論上の正当化や解釈を欠いているため、潜在的に原則化された改善を妨げている。
本稿では,意味的セグメンテーションと圧縮の間には,特にトランスフォーマーデコーダと主成分分析(PCA)の間には,基本的な関係があることを論じる。
このような観点から, Principled semantiC segemenTation (DEPICT) のための, ホワイトボックス, 完全に注目されたDecoder を導出する。
1) 自己注意操作者は,画像の埋め込みを洗練して,監督と整合し,かつ,ほとんどの情報を保持する理想的な主部分空間を構築する。
2) クロスアテンション演算子は,主部分空間の正規直交基底の集合であり,予め定義されたクラスに対応すると考えられる,精細な画像埋め込みの低ランク近似を求める。
3) ドット積演算は, 画像埋め込みをセグメント化マスクとしてコンパクトに表現する。
ADE20Kで行った実験によると、DEPICTはブラックボックスのセグメンターよりも一貫して優れており、軽量で頑丈である。
関連論文リスト
- White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? [27.58916930770997]
数学的に完全に解釈可能なCRATEという,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験によると、これらのネットワークは単純さにもかかわらず、大規模な実世界の画像とテキストデータセットの表現を圧縮し、分散化することを学習している。
論文 参考訳(メタデータ) (2023-11-22T02:23:32Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Robust and Efficient Segmentation of Cross-domain Medical Images [37.38861543166964]
医用画像の堅牢かつ効率的なセグメンテーションのための一般化可能な知識蒸留法を提案する。
本稿では,2つの一般化可能な知識蒸留方式,Dual Contrastive Graph Distillation (DCGD)とDomain-Invariant Cross Distillation (DICD)を提案する。
DICDでは、2つのモデル(例えば教師と学生)のドメイン不変セマンティックベクターをMSANのヘッダー交換によってクロスコンストラクト特徴に活用する。
論文 参考訳(メタデータ) (2022-07-26T15:55:36Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Exploring Feature Representation Learning for Semi-supervised Medical
Image Segmentation [30.608293915653558]
半教師型医用画像分割のための2段階フレームワークを提案する。
重要な洞察は、ラベル付きおよびラベルなし(擬似ラベル付き)画像による特徴表現学習を探索することである。
段階適応型コントラスト学習法を提案し, 境界対応型コントラスト学習法を提案する。
本稿では,高品質な擬似ラベルを生成するためのアレータリック不確実性認識手法,すなわちAUAを提案する。
論文 参考訳(メタデータ) (2021-11-22T05:06:12Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。