論文の概要: Representation Separation for Semantic Segmentation with Vision
Transformers
- arxiv url: http://arxiv.org/abs/2212.13764v1
- Date: Wed, 28 Dec 2022 09:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 14:24:46.884719
- Title: Representation Separation for Semantic Segmentation with Vision
Transformers
- Title(参考訳): 視覚変換器を用いたセマンティックセグメンテーションのための表現分離
- Authors: Yuanduo Hong, Huihui Pan, Weichao Sun, Xinghu Yu, and Huijun Gao
- Abstract要約: イメージをパッチのシーケンスとして符号化するビジョントランスフォーマー(ViT)は、セマンティックセグメンテーションの新しいパラダイムをもたらす。
局所パッチレベルと大域領域レベルでの表現分離の効率的な枠組みをViTを用いたセマンティックセグメンテーションに適用する。
- 参考スコア(独自算出の注目度): 11.431694321563322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViTs) encoding an image as a sequence of patches bring
new paradigms for semantic segmentation.We present an efficient framework of
representation separation in local-patch level and global-region level for
semantic segmentation with ViTs. It is targeted for the peculiar
over-smoothness of ViTs in semantic segmentation, and therefore differs from
current popular paradigms of context modeling and most existing related methods
reinforcing the advantage of attention. We first deliver the decoupled
two-pathway network in which another pathway enhances and passes down
local-patch discrepancy complementary to global representations of
transformers. We then propose the spatially adaptive separation module to
obtain more separate deep representations and the discriminative
cross-attention which yields more discriminative region representations through
novel auxiliary supervisions. The proposed methods achieve some impressive
results: 1) incorporated with large-scale plain ViTs, our methods achieve new
state-of-the-art performances on five widely used benchmarks; 2) using masked
pre-trained plain ViTs, we achieve 68.9% mIoU on Pascal Context, setting a new
record; 3) pyramid ViTs integrated with the decoupled two-pathway network even
surpass the well-designed high-resolution ViTs on Cityscapes; 4) the improved
representations by our framework have favorable transferability in images with
natural corruptions. The codes will be released publicly.
- Abstract(参考訳): イメージを一連のパッチとして符号化するヴィジュアルトランスフォーマタ(vits)は,意味セグメンテーションの新しいパラダイムをもたらす。我々は,vitを用いた意味セグメンテーションのための局所的パッチレベルとグローバル領域レベルの表現分離の効率的な枠組みを提案する。
意味的セグメンテーションにおけるViTの特異な過度な過度さを目標としており、現代のコンテキストモデリングの一般的なパラダイムや、注意力の優位性を強化する既存の関連手法とは異なる。
まず, トランスのグローバルな表現に相補的な局所パッチ差分を拡大し, 通過する2経路ネットワークを分離した。
次に,より分離された深層表現を得る空間適応分離モジュールと,新たな補助監督によってより識別的な領域表現をもたらす判別的クロスアテンションを提案する。
提案手法はいくつかの印象的な結果を得る。
1) 大規模平易なViTを組み込んだ手法により, 広く使用されている5つのベンチマークにおいて, 新たな最先端性能を実現する。
2) マスク付き事前訓練された平地 ViT を用いて,パスカルコンテクスト上で68.9% mIoU を達成し,新記録を樹立する。
3) ピラミッド型VTは、分離された2経路ネットワークに統合され、都市景観のよく設計された高解像度VTを超えます。
4) この枠組みによる表現の改善は, 自然破壊のある画像において良好な転送性を有する。
コードは公開される予定だ。
関連論文リスト
- Minimalist and High-Performance Semantic Segmentation with Plain Vision
Transformers [10.72362704573323]
トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。
また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:01:40Z) - Dual-Augmented Transformer Network for Weakly Supervised Semantic
Segmentation [4.02487511510606]
弱教師付きセマンティックセグメンテーション(WSSS)は、クラスレベルのラベルのみにオブジェクトを分割することを目的とした、基本的なコンピュータビジョンタスクである。
従来の手法では、CNNベースのネットワークを採用し、クラスアクティベーションマップ(CAM)戦略を用いて対象領域を発見する。
別の方法は、視覚変換器(ViT)を探索して画像を符号化し、グローバルな意味情報を取得することである。
相互補完学習のためのCNNベースネットワークとトランスフォーマーネットワークを併用したデュアルネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T08:41:11Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Semantic Segmentation using Vision Transformers: A survey [0.0]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)はセマンティックセグメンテーションのためのアーキテクチャモデルを提供する。
ViTは画像分類に成功しており、画像のセグメンテーションや物体検出といった密集した予測タスクに直接適用することはできない。
この調査は、ベンチマークデータセットを使用してセマンティックセグメンテーション用に設計されたViTアーキテクチャのパフォーマンスをレビューし、比較することを目的としている。
論文 参考訳(メタデータ) (2023-05-05T04:11:00Z) - Siamese DETR [87.45960774877798]
本稿では,DeTR における Transformer アーキテクチャの自己教師型事前学習手法である Siamese DETR を提案する。
我々は2つの相補的なタスクを通して、ビュー不変と検出指向の表現を同時に学習することを検討する。
提案したSiamese DETRはCOCOおよびPASCALVOC検出における最先端の転送性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T15:29:25Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Smoothing Matters: Momentum Transformer for Domain Adaptive Semantic
Segmentation [48.7190017311309]
ドメイン適応型セマンティックセグメンテーションに局所的なViTを直接適用しても、期待できる改善は得られない。
これらの高周波成分は、局所的な ViT のトレーニングを極めて平滑なものにし、その伝達性を損なう。
本稿では,ローパスフィルタリング機構である運動量ネットワークを導入し,対象領域の特徴や擬似ラベルの学習ダイナミクスを円滑にする。
論文 参考訳(メタデータ) (2022-03-15T15:20:30Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。