論文の概要: SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers
- arxiv url: http://arxiv.org/abs/2306.06289v1
- Date: Fri, 9 Jun 2023 22:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 19:52:50.545454
- Title: SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers
- Title(参考訳): segvitv2:プレーンビジョントランスフォーマーによる効率的かつ連続的な意味セグメンテーションの検討
- Authors: Bowen Zhang, Liyang Liu, Minh Hieu Phan, Zhi Tian, Chunhua Shen, Yifan
Liu
- Abstract要約: エンコーダデコーダフレームワークを用いたセマンティックセマンティックセグメンテーションのためのプレーンビジョントランスフォーマー(ViT)の機能について検討し,SegViTv2を紹介する。
我々のデコーダは、様々なViTバックボーンにおいて最もよく使われるアッパーネットより優れ、計算コストの約5%しか消費しない。
提案するSegViTは,ADE20k,COCO-Stuff-10k,PASCAL-Contextデータセットを含む3つの一般的なベンチマークにおいて,最新のセグメンテーション手法よりも優れている。
- 参考スコア(独自算出の注目度): 90.66070866680148
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We explore the capability of plain Vision Transformers (ViTs) for semantic
segmentation using the encoder-decoder framework and introduce SegViTv2. In our
work, we implement the decoder with the global attention mechanism inherent in
ViT backbones and propose the lightweight Attention-to-Mask module that
effectively converts the global attention map into semantic masks for
high-quality segmentation results. Our decoder can outperform the most
commonly-used decoder UpperNet in various ViT backbones while consuming only
about 5\% of the computational cost. For the encoder, we address the concern of
the relatively high computational cost in the ViT-based encoders and propose a
Shrunk++ structure that incorporates edge-aware query-based down-sampling (EQD)
and query-based up-sampling (QU) modules. The Shrunk++ structure reduces the
computational cost of the encoder by up to $50\%$ while maintaining competitive
performance. Furthermore, due to the flexibility of our ViT-based architecture,
SegVit can be easily extended to semantic segmentation under the setting of
continual learning, achieving nearly zero forgetting. Experiments show that our
proposed SegViT outperforms recent segmentation methods on three popular
benchmarks including ADE20k, COCO-Stuff-10k and PASCAL-Context datasets. The
code is available through the following link:
\url{https://github.com/zbwxp/SegVit}.
- Abstract(参考訳): エンコーダデコーダフレームワークを用いたセマンティックセマンティックセグメンテーションのためのプレーンビジョントランスフォーマー(ViT)の機能について検討し,SegViTv2を紹介する。
本研究では,vitバックボーンに固有のグローバルアテンション機構を備えたデコーダを実装し,グローバルアテンションマップを高品質セグメンテーション結果に効果的に意味的マスクに変換する軽量アテンション・ツー・マスクモジュールを提案する。
我々のデコーダは、様々なViTバックボーンにおいて最もよく使われるアッパーネットより優れ、計算コストの5倍程度しか消費しない。
エンコーダでは、ViTベースのエンコーダの比較的高い計算コストの懸念に対処し、エッジ対応クエリベースのダウンサンプリング(EQD)とクエリベースのアップサンプリング(QU)モジュールを組み込んだShrunk++構造を提案する。
shrunk++の構造は、競合性能を維持しつつ、エンコーダの計算コストを最大$50\%$削減する。
さらに、私たちのViTベースのアーキテクチャの柔軟性のため、連続学習の設定下でセマンティックセグメンテーションに容易に拡張することができ、ほとんど忘れることができない。
提案するsegvitは,ade20k,coco-stuff-10k,pascal-contextデータセットの3つのベンチマークにおいて,近年のセグメンテーション手法を上回っている。
コードは以下のリンクで利用可能である。
関連論文リスト
- SCASeg: Strip Cross-Attention for Efficient Semantic Segmentation [37.2240333333522]
Vision Transformer (ViT) はコンピュータビジョンにおいて顕著な成功を収めており、その変種はセマンティックセグメンテーションを含む様々な下流タスクで広く検証されている。
本稿では,意味的セグメンテーションのために設計された革新的なデコーダヘッドであるStrip Cross-Attention (SCASeg)を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:00:09Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - SegNeXt: Rethinking Convolutional Attention Design for Semantic
Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。
コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-09-18T14:33:49Z) - Lawin Transformer: Improving Semantic Segmentation Transformer with
Multi-Scale Representations via Large Window Attention [16.75003034164463]
マルチスケール表現はセマンティックセグメンテーションに不可欠である。
本稿では,ウィンドウアテンション機構を用いたセマンティックセグメンテーション ViT にマルチスケール表現を導入する。
得られたViTであるLawin Transformerは、エンコーダとしてHVT、デコーダとしてLawinASPPから構成される。
論文 参考訳(メタデータ) (2022-01-05T13:51:20Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation [95.47168925127089]
本稿では,エンコーダがデコーダのパラメータ(重み)をエンコードして生成する,新しいリアルタイムセマンティックセグメンテーションネットワークを提案する。
我々は、より高レベルなコンテキスト特徴を描画するためのネストされたU-Netからなる新しいタイプのハイパーネットワークを設計する。
論文 参考訳(メタデータ) (2020-12-21T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。