論文の概要: SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers
- arxiv url: http://arxiv.org/abs/2306.06289v2
- Date: Wed, 30 Aug 2023 13:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 16:54:38.938569
- Title: SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers
- Title(参考訳): segvitv2:プレーンビジョントランスフォーマーによる効率的かつ連続的な意味セグメンテーションの検討
- Authors: Bowen Zhang, Liyang Liu, Minh Hieu Phan, Zhi Tian, Chunhua Shen, Yifan
Liu
- Abstract要約: 本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
- 参考スコア(独自算出の注目度): 76.13755422671822
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper investigates the capability of plain Vision Transformers (ViTs)
for semantic segmentation using the encoder-decoder framework and introduces
\textbf{SegViTv2}. In this study, we introduce a novel Attention-to-Mask (\atm)
module to design a lightweight decoder effective for plain ViT. The proposed
ATM converts the global attention map into semantic masks for high-quality
segmentation results. Our decoder outperforms the popular decoder UPerNet using
various ViT backbones while consuming only about $5\%$ of the computational
cost. For the encoder, we address the concern of the relatively high
computational cost in the ViT-based encoders and propose a \emph{Shrunk++}
structure that incorporates edge-aware query-based down-sampling (EQD) and
query-based upsampling (QU) modules. The Shrunk++ structure reduces the
computational cost of the encoder by up to $50\%$ while maintaining competitive
performance. Furthermore, we propose to adapt SegViT for continual semantic
segmentation, demonstrating nearly zero forgetting of previously learned
knowledge. Experiments show that our proposed SegViTv2 surpasses recent
segmentation methods on three popular benchmarks including ADE20k,
COCO-Stuff-10k and PASCAL-Context datasets. The code is available through the
following link: \url{https://github.com/zbwxp/SegVit}.
- Abstract(参考訳): 本稿では,エンコーダ・デコーダフレームワークを用いた意味的セグメンテーションのためのプレーンビジョントランスフォーマー(ViTs)の機能について検討し,それを紹介する。
本研究では,平易なViTに有効な軽量デコーダを設計するための新しいアテンション・トゥ・マスク (\atm) モジュールを提案する。
提案したATMは,グローバルアテンションマップをセグメンテーション結果のセグメンテーションマスクに変換する。
我々のデコーダは、様々な ViT バックボーンを使用して一般的なデコーダ UPerNet よりも優れ、計算コストの約 5 % しか消費しない。
エンコーダでは、ViTベースのエンコーダの比較的高い計算コストの懸念に対処し、エッジ対応クエリベースのダウンサンプリング(EQD)とクエリベースのアップサンプリング(QU)モジュールを組み込んだ \emph{Shrunk++} 構造を提案する。
shrunk++の構造は、競合性能を維持しつつ、エンコーダの計算コストを最大$50\%$削減する。
さらに,SegViTを連続的セマンティックセグメンテーションに適用し,学習前の知識をほとんど忘れないことを実証する。
提案するsegvitv2は,ade20k,coco-stuff-10k,pascal-contextデータセットの3つのベンチマークにおいて,近年のセグメンテーション手法を上回っている。
コードは以下のリンクで利用可能である。
関連論文リスト
- SCASeg: Strip Cross-Attention for Efficient Semantic Segmentation [37.2240333333522]
Vision Transformer (ViT) はコンピュータビジョンにおいて顕著な成功を収めており、その変種はセマンティックセグメンテーションを含む様々な下流タスクで広く検証されている。
本稿では,意味的セグメンテーションのために設計された革新的なデコーダヘッドであるStrip Cross-Attention (SCASeg)を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:00:09Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - SegNeXt: Rethinking Convolutional Attention Design for Semantic
Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。
コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-09-18T14:33:49Z) - Lawin Transformer: Improving Semantic Segmentation Transformer with
Multi-Scale Representations via Large Window Attention [16.75003034164463]
マルチスケール表現はセマンティックセグメンテーションに不可欠である。
本稿では,ウィンドウアテンション機構を用いたセマンティックセグメンテーション ViT にマルチスケール表現を導入する。
得られたViTであるLawin Transformerは、エンコーダとしてHVT、デコーダとしてLawinASPPから構成される。
論文 参考訳(メタデータ) (2022-01-05T13:51:20Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation [95.47168925127089]
本稿では,エンコーダがデコーダのパラメータ(重み)をエンコードして生成する,新しいリアルタイムセマンティックセグメンテーションネットワークを提案する。
我々は、より高レベルなコンテキスト特徴を描画するためのネストされたU-Netからなる新しいタイプのハイパーネットワークを設計する。
論文 参考訳(メタデータ) (2020-12-21T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。