Fugu-MT 論文翻訳(概要): SegViTv2: Exploring Efficient and Continual Semantic Segmentation with Plain Vision Transformers

論文の概要: SegViTv2: Exploring Efficient and Continual Semantic Segmentation with Plain Vision Transformers

arxiv url: http://arxiv.org/abs/2306.06289v2
Date: Wed, 30 Aug 2023 13:01:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-31 16:54:38.938569
Title: SegViTv2: Exploring Efficient and Continual Semantic Segmentation with Plain Vision Transformers
Title（参考訳）: segvitv2:プレーンビジョントランスフォーマーによる効率的かつ連続的な意味セグメンテーションの検討
Authors: Bowen Zhang, Liyang Liu, Minh Hieu Phan, Zhi Tian, Chunhua Shen, Yifan Liu
Abstract要約: 本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。 Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
参考スコア（独自算出の注目度）: 76.13755422671822
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper investigates the capability of plain Vision Transformers (ViTs) for semantic segmentation using the encoder-decoder framework and introduces \textbf{SegViTv2}. In this study, we introduce a novel Attention-to-Mask (\atm) module to design a lightweight decoder effective for plain ViT. The proposed ATM converts the global attention map into semantic masks for high-quality segmentation results. Our decoder outperforms the popular decoder UPerNet using various ViT backbones while consuming only about $5\%$ of the computational cost. For the encoder, we address the concern of the relatively high computational cost in the ViT-based encoders and propose a \emph{Shrunk++} structure that incorporates edge-aware query-based down-sampling (EQD) and query-based upsampling (QU) modules. The Shrunk++ structure reduces the computational cost of the encoder by up to $50\%$ while maintaining competitive performance. Furthermore, we propose to adapt SegViT for continual semantic segmentation, demonstrating nearly zero forgetting of previously learned knowledge. Experiments show that our proposed SegViTv2 surpasses recent segmentation methods on three popular benchmarks including ADE20k, COCO-Stuff-10k and PASCAL-Context datasets. The code is available through the following link: \url{https://github.com/zbwxp/SegVit}.
Abstract（参考訳）: 本稿では,エンコーダ・デコーダフレームワークを用いた意味的セグメンテーションのためのプレーンビジョントランスフォーマー(ViTs)の機能について検討し,それを紹介する。本研究では,平易なViTに有効な軽量デコーダを設計するための新しいアテンション・トゥ・マスク (\atm) モジュールを提案する。提案したATMは,グローバルアテンションマップをセグメンテーション結果のセグメンテーションマスクに変換する。我々のデコーダは、様々な ViT バックボーンを使用して一般的なデコーダ UPerNet よりも優れ、計算コストの約 5 % しか消費しない。エンコーダでは、ViTベースのエンコーダの比較的高い計算コストの懸念に対処し、エッジ対応クエリベースのダウンサンプリング(EQD)とクエリベースのアップサンプリング(QU)モジュールを組み込んだ \emph{Shrunk++} 構造を提案する。 shrunk++の構造は、競合性能を維持しつつ、エンコーダの計算コストを最大$50\%$削減する。さらに,SegViTを連続的セマンティックセグメンテーションに適用し,学習前の知識をほとんど忘れないことを実証する。提案するsegvitv2は,ade20k,coco-stuff-10k,pascal-contextデータセットの3つのベンチマークにおいて,近年のセグメンテーション手法を上回っている。コードは以下のリンクで利用可能である。

関連論文リスト

SCASeg: Strip Cross-Attention for Efficient Semantic Segmentation [37.2240333333522]
Vision Transformer (ViT) はコンピュータビジョンにおいて顕著な成功を収めており、その変種はセマンティックセグメンテーションを含む様々な下流タスクで広く検証されている。本稿では,意味的セグメンテーションのために設計された革新的なデコーダヘッドであるStrip Cross-Attention (SCASeg)を提案する。
論文参考訳（メタデータ） (2024-11-26T03:00:09Z)
Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。 Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文参考訳（メタデータ） (2024-04-23T01:34:20Z)
SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文参考訳（メタデータ） (2022-10-12T00:30:26Z)
SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-09-18T14:33:49Z)
Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention [16.75003034164463]
マルチスケール表現はセマンティックセグメンテーションに不可欠である。本稿では,ウィンドウアテンション機構を用いたセマンティックセグメンテーション ViT にマルチスケール表現を導入する。得られたViTであるLawin Transformerは、エンコーダとしてHVT、デコーダとしてLawinASPPから構成される。
論文参考訳（メタデータ） (2022-01-05T13:51:20Z)
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。 SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文参考訳（メタデータ） (2020-12-31T18:55:57Z)
HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation [95.47168925127089]
本稿では,エンコーダがデコーダのパラメータ(重み)をエンコードして生成する,新しいリアルタイムセマンティックセグメンテーションネットワークを提案する。我々は、より高レベルなコンテキスト特徴を描画するためのネストされたU-Netからなる新しいタイプのハイパーネットワークを設計する。
論文参考訳（メタデータ） (2020-12-21T18:58:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。