論文の概要: Full Contextual Attention for Multi-resolution Transformers in Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2212.07890v1
- Date: Thu, 15 Dec 2022 15:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 17:20:05.390592
- Title: Full Contextual Attention for Multi-resolution Transformers in Semantic
Segmentation
- Title(参考訳): 意味セグメンテーションにおけるマルチレゾリューショントランスフォーマのフルコンテキスト注意
- Authors: Loic Themyr, Clement Rambour, Nicolas Thome, Toby Collins, Alexandre
Hostettler
- Abstract要約: 本稿ではグローバルトークンの概念を拡張し,GLobal Attention Multi- resolution transformer(GLAM)を構築する。
GLAMには学習可能なグローバルトークンが含まれている。
実験では、GLAM-SwinまたはGLAM-Swin-UNetはADE20KやCityscapesのバニラよりもかなり優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 76.93387214103863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have proved to be very effective for visual recognition tasks.
In particular, vision transformers construct compressed global representations
through self-attention and learnable class tokens. Multi-resolution
transformers have shown recent successes in semantic segmentation but can only
capture local interactions in high-resolution feature maps. This paper extends
the notion of global tokens to build GLobal Attention Multi-resolution (GLAM)
transformers. GLAM is a generic module that can be integrated into most
existing transformer backbones. GLAM includes learnable global tokens, which
unlike previous methods can model interactions between all image regions, and
extracts powerful representations during training. Extensive experiments show
that GLAM-Swin or GLAM-Swin-UNet exhibit substantially better performances than
their vanilla counterparts on ADE20K and Cityscapes. Moreover, GLAM can be used
to segment large 3D medical images, and GLAM-nnFormer achieves new
state-of-the-art performance on the BCV dataset.
- Abstract(参考訳): トランスフォーマーは視覚認識タスクに非常に効果的であることが証明されている。
特に、視覚変換器は自己注意と学習可能なクラストークンを通じて圧縮されたグローバル表現を構築する。
マルチレゾリューショントランスフォーマはセマンティクスセグメンテーションで最近成功したが、高解像度特徴マップでのみ局所的な相互作用を捉えることができる。
本稿ではグローバルトークンの概念を拡張し,GLobal Attention Multi- resolution transformer(GLAM)を構築する。
GLAMは、ほとんどの既存のトランスフォーマーバックボーンに統合できるジェネリックモジュールである。
GLAMには学習可能なグローバルトークンが含まれており、従来の方法とは異なり、すべての画像領域間のインタラクションをモデル化し、トレーニング中に強力な表現を抽出することができる。
大規模な実験により、GLAM-SwinまたはGLAM-Swin-UNetはADE20KやCityscapesのバニラよりもかなり優れた性能を示した。
さらに、glamは大きな3d医療画像のセグメンテーションに使用され、glam-nnformerはbcvデータセットで新たな最先端のパフォーマンスを達成している。
関連論文リスト
- Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - Multi-scale Efficient Graph-Transformer for Whole Slide Image
Classification [16.19677745296922]
本稿では,WSI分類のためのマルチスケール能率グラフ変換器(MEGT)フレームワークを提案する。
MEGTの鍵となる考え方は、低解像度で高解像度のパッチ埋め込みを処理するために、2つの独立したグラフベースのトランスフォーマー(EGT)ブランチを採用することである。
本稿では,特徴融合中の異なる解像度パッチ間のセマンティックギャップを軽減するための新しいMFFMを提案する。
論文 参考訳(メタデータ) (2023-05-25T06:34:14Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - Semantic-Aware Local-Global Vision Transformer [24.55333039729068]
セマンティック・アウェア・ローカル・グローバル・ビジョン・トランス(SALG)を提案する。
我々のSALGは教師なしの方法でセマンティックセグメンテーションを行い、画像の根底にあるセマンティックセグメンテーションを探索する。
このモデルでは,各トークンの特徴を学習する際に,グローバルなビューを得ることができる。
論文 参考訳(メタデータ) (2022-11-27T03:16:00Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Transformer Scale Gate for Semantic Segmentation [53.27673119360868]
Transformer Scale Gate (TSG) は、視覚変換器の自己および横断的な注意をスケール選択に活用する。
Pascal ContextとADE20Kデータセットに関する我々の実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。
論文 参考訳(メタデータ) (2022-05-14T13:11:39Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - MSG-Transformer: Exchanging Local Spatial Information by Manipulating
Messenger Tokens [129.10351459066501]
メッセンジャー(MSG)として機能する各領域に特化トークンを提案する。
これらのMSGトークンを操作することで、領域間で柔軟に視覚情報を交換することができる。
次に、MSGトークンをMSG-Transformerというマルチスケールアーキテクチャに統合する。
論文 参考訳(メタデータ) (2021-05-31T17:16:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。