論文の概要: Lawin Transformer: Improving New-Era Vision Backbones with Multi-Scale
Representations for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2201.01615v2
- Date: Thu, 3 Aug 2023 06:13:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 17:46:19.712737
- Title: Lawin Transformer: Improving New-Era Vision Backbones with Multi-Scale
Representations for Semantic Segmentation
- Title(参考訳): Lawin Transformer: セマンティックセグメンテーションのためのマルチスケール表現による新しいEraビジョンバックボーンの改良
- Authors: Haotian Yan and Chuang Zhang and Ming Wu
- Abstract要約: Lawin Transformerは、視覚バックボーンから複数スケールの機能マップを創造的に利用する、新しいMLAアーキテクチャである。
Lawin TransformerのコアとなるのはLorin attention(リンク)である。
我々は,Lawin TransformerがCityscapesおよびADE20Kに与える影響を検証し,広く使用されているMLAモジュールに対する優れた優位性を一貫して示す。
- 参考スコア(独自算出の注目度): 16.75003034164463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multi-level aggregation (MLA) module has emerged as a critical component
for advancing new-era vision back-bones in semantic segmentation. In this
paper, we propose Lawin (large window) Transformer, a novel MLA architecture
that creatively utilizes multi-scale feature maps from the vision backbone. At
the core of Lawin Transformer is the Lawin attention, a newly designed window
attention mechanism capable of querying much larger context windows than local
windows. We focus on studying the efficient and simplistic application of the
large-window paradigm, allowing for flexible regulation of the ratio of large
context to query and capturing multi-scale representations. We validate the
effectiveness of Lawin Transformer on Cityscapes and ADE20K, consistently
demonstrating great superiority to widely-used MLA modules when combined with
new-era vision backbones. The code is available at
https://github.com/yan-hao-tian/lawin.
- Abstract(参考訳): マルチレベルアグリゲーション(MLA)モジュールは、セマンティックセグメンテーションにおいて、新しい時代のビジョンバックボーンを前進させる重要なコンポーネントとして登場した。
本稿では,視覚バックボーンからのマルチスケール特徴マップを創造的に活用する新しいMLAアーキテクチャであるLawin (large window) Transformerを提案する。
lawin transformerのコアはlawin attentionであり、ローカルウィンドウよりもずっと大きなコンテキストウィンドウをクエリできる、新たに設計されたウィンドウアテンションメカニズムである。
我々は,大規模ウィンドウパラダイムの効率的かつ簡易な応用について研究することに注力し,大規模コンテクストのクエリとマルチスケール表現のキャプチャに対する比率の柔軟な規制を可能にした。
我々はLawin TransformerがCityscapesおよびADE20Kに与える影響を検証し、新しい視覚バックボーンと組み合わせることで、広く使われているMLAモジュールに優れた優位性を示す。
コードはhttps://github.com/yan-hao-tian/lawinで入手できる。
関連論文リスト
- SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。
我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。
実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-08-03T12:57:00Z) - HorNet: Efficient High-Order Spatial Interactions with Recursive Gated
Convolutions [109.33112814212129]
本稿では,畳み込みに基づくフレームワークを用いて,入力適応型,長距離,高次空間相互作用を効率的に実装可能であることを示す。
本稿では、ゲート畳み込みと高次空間相互作用を行うRecursive Gated Convolution(textitgtextitn$Conv)を提案する。
この操作に基づいて,HorNetという汎用視覚バックボーンを新たに構築する。
論文 参考訳(メタデータ) (2022-07-28T17:59:02Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer [20.92010433074935]
そこで我々はShuffle Transformerという新しい視覚変換器を提案する。
提案アーキテクチャは,画像レベルの分類,オブジェクト検出,セマンティックセグメンテーションなど,幅広い視覚的タスクにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-06-07T14:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。