論文の概要: SegFormer: Simple and Efficient Design for Semantic Segmentation with
Transformers
- arxiv url: http://arxiv.org/abs/2105.15203v1
- Date: Mon, 31 May 2021 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:38:07.015877
- Title: SegFormer: Simple and Efficient Design for Semantic Segmentation with
Transformers
- Title(参考訳): SegFormer: トランスフォーマーを用いたセマンティックセグメンテーションのシンプルで効率的な設計
- Authors: Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez,
Ping Luo
- Abstract要約: 我々は,トランスフォーマーを軽量多層認識(MLP)デコーダと統合するセマンティックセグメンテーションフレームワークであるSegFormerを提案する。
SegFormerは、マルチスケール機能を出力する、新しく構造化されたエンコーダで構成されている。
提案するデコーダは,異なるレイヤからの情報を集約し,局所的な注意とグローバルな注意の両方を強力な表現に結合する。
- 参考スコア(独自算出の注目度): 79.646577541655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SegFormer, a simple, efficient yet powerful semantic segmentation
framework which unifies Transformers with lightweight multilayer perception
(MLP) decoders. SegFormer has two appealing features: 1) SegFormer comprises a
novel hierarchically structured Transformer encoder which outputs multiscale
features. It does not need positional encoding, thereby avoiding the
interpolation of positional codes which leads to decreased performance when the
testing resolution differs from training. 2) SegFormer avoids complex decoders.
The proposed MLP decoder aggregates information from different layers, and thus
combining both local attention and global attention to render powerful
representations. We show that this simple and lightweight design is the key to
efficient segmentation on Transformers. We scale our approach up to obtain a
series of models from SegFormer-B0 to SegFormer-B5, reaching significantly
better performance and efficiency than previous counterparts. For example,
SegFormer-B4 achieves 50.3% mIoU on ADE20K with 64M parameters, being 5x
smaller and 2.2% better than the previous best method. Our best model,
SegFormer-B5, achieves 84.0% mIoU on Cityscapes validation set and shows
excellent zero-shot robustness on Cityscapes-C. Code will be released at:
github.com/NVlabs/SegFormer.
- Abstract(参考訳): SegFormerはシンプルで効率的で強力なセマンティックセマンティックセマンティクスフレームワークで、トランスフォーマーを軽量多層認識(MLP)デコーダと統合する。
segformerには2つの魅力的な特徴がある: 1) segformerは、マルチスケールな特徴を出力する、新しい階層的構造化トランスフォーマエンコーダを含んでいる。
位置符号化は不要で、テスト解像度がトレーニングと異なる場合、パフォーマンスが低下する位置符号の補間を避けることができる。
2) SegFormerは複雑なデコーダを避ける。
提案したMLPデコーダは,異なるレイヤからの情報を集約し,局所的な注意とグローバルな注意を組み合わせ,強力な表現を描画する。
このシンプルで軽量な設計がトランスフォーマーの効率的なセグメンテーションの鍵であることを示す。
segformer-b0 から segformer-b5 までの一連のモデルを取得するために、我々のアプローチをスケールアップし、以前のモデルよりもはるかに優れたパフォーマンスと効率に到達しました。
例えば、SegFormer-B4 は 64M パラメータを持つADE20K 上で 50.3% mIoU を達成する。
私たちの最高のモデルであるSegFormer-B5は、Cityscapesバリデーションセットで84.0% mIoUを獲得し、Cityscapes-Cで優れたゼロショットロバスト性を示している。
関連論文リスト
- MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping [1.1557852082644071]
少数の例だけで、クエリイメージ内のオブジェクトをセグメント化するという課題に、Semanticは対処している。
本稿では,トランスアーキテクチャに基づく新しいFew-shot Semanticフレームワークを提案する。
150万のパラメータしか持たないモデルでは,既存の手法の限界を克服しつつ,競争性能を実証している。
論文 参考訳(メタデータ) (2024-09-17T16:14:03Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient
Semantic Segmentation [0.0]
CNNベースのU-Netは、高解像度の医療画像とリモートセンシングにおいて大きな進歩を遂げている。
この2つの成功は、両方の長所をマージするきっかけとなり、U-Netベースの視覚変換器デコーダが誕生しました。
本稿では,U-Net構造上に構築され,効率的なセマンティックセグメンテーションのために設計された新しいトランスフォーマデコーダU-MixFormerを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:19:42Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - SegNeXt: Rethinking Convolutional Attention Design for Semantic
Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。
コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-09-18T14:33:49Z) - Dynamically pruning segformer for efficient semantic segmentation [8.29672153078638]
効率的なセマンティックセグメンテーションのための軽量セグメンテーションセグメンテーションを設計する。
本研究は,SegFormer層内のニューロンが異なる画像間で大きなばらつきを示すという観測に基づいて,動的ゲート線形層を提案する。
また,2段階の知識蒸留を導入し,原教師内の知識を刈り取られた学生ネットワークに伝達する。
論文 参考訳(メタデータ) (2021-11-18T03:34:28Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。