論文の概要: MSG-Transformer: Exchanging Local Spatial Information by Manipulating
Messenger Tokens
- arxiv url: http://arxiv.org/abs/2105.15168v1
- Date: Mon, 31 May 2021 17:16:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:38:21.625101
- Title: MSG-Transformer: Exchanging Local Spatial Information by Manipulating
Messenger Tokens
- Title(参考訳): MSG-Transformer:メッセンジャートークンの操作による地域空間情報の交換
- Authors: Jiemin Fang, Lingxi Xie, Xinggang Wang, Xiaopeng Zhang, Wenyu Liu, Qi
Tian
- Abstract要約: メッセンジャー(MSG)として機能する各領域に特化トークンを提案する。
これらのMSGトークンを操作することで、領域間で柔軟に視覚情報を交換することができる。
次に、MSGトークンをMSG-Transformerというマルチスケールアーキテクチャに統合する。
- 参考スコア(独自算出の注目度): 129.10351459066501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have offered a new methodology of designing neural networks for
visual recognition. Compared to convolutional networks, Transformers enjoy the
ability of referring to global features at each stage, yet the attention module
brings higher computational overhead that obstructs the application of
Transformers to process high-resolution visual data. This paper aims to
alleviate the conflict between efficiency and flexibility, for which we propose
a specialized token for each region that serves as a messenger (MSG). Hence, by
manipulating these MSG tokens, one can flexibly exchange visual information
across regions and the computational complexity is reduced. We then integrate
the MSG token into a multi-scale architecture named MSG-Transformer. In
standard image classification and object detection, MSG-Transformer achieves
competitive performance and the inference on both GPU and CPU is accelerated.
The code will be available at https://github.com/hustvl/MSG-Transformer.
- Abstract(参考訳): トランスフォーマーは、視覚認識のためのニューラルネットワークを設計する新しい手法を提供している。
畳み込みネットワークと比較すると、トランスフォーマーは各ステージでグローバルな特徴を参照できるが、アテンションモジュールは高い計算オーバーヘッドをもたらし、高い解像度の視覚データを処理するためのトランスフォーマーの適用を妨げている。
本稿では,効率性と柔軟性の対立を軽減することを目的として,メッセンジャー(MSG)として機能する各領域に特化トークンを提案する。
したがって、これらのMSGトークンを操作することで、領域間で柔軟に視覚情報を交換することができ、計算複雑性を低減できる。
次に、MSGトークンをMSG-Transformerというマルチスケールアーキテクチャに統合する。
標準画像分類とオブジェクト検出では、MSG-Transformerは競合性能を実現し、GPUとCPUの両方での推論が高速化される。
コードはhttps://github.com/hustvl/MSG-Transformer.comから入手できる。
関連論文リスト
- GTC: GNN-Transformer Co-contrastive Learning for Self-supervised Heterogeneous Graph Representation [0.9249657468385781]
本稿では,GNN-Transformerの協調学習手法を提案し,GTCアーキテクチャを構築する。
The Transformer branch for the Metapath-aware Hop2Token and CG-Hetphormer which can Cooper with GNN to Attentively encoding neighborhood information from different levels。
実際のデータセットでの実験では、GTCは最先端の手法よりも優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-22T12:22:44Z) - SGFormer: Simplifying and Empowering Transformers for Large-Graph Representations [75.71298846760303]
ノード特性予測ベンチマークにおいて,一層注意が驚くほど高い性能を示すことを示す。
提案手法をSGFormer (Simplified Graph Transformer) と呼ぶ。
提案手法は,大きなグラフ上にトランスフォーマーを構築する上で,独立性のある新たな技術パスを啓蒙するものである。
論文 参考訳(メタデータ) (2023-06-19T08:03:25Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Full Contextual Attention for Multi-resolution Transformers in Semantic
Segmentation [76.93387214103863]
本稿ではグローバルトークンの概念を拡張し,GLobal Attention Multi- resolution transformer(GLAM)を構築する。
GLAMには学習可能なグローバルトークンが含まれている。
実験では、GLAM-SwinまたはGLAM-Swin-UNetはADE20KやCityscapesのバニラよりもかなり優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-12-15T15:19:09Z) - Transformer Scale Gate for Semantic Segmentation [53.27673119360868]
Transformer Scale Gate (TSG) は、視覚変換器の自己および横断的な注意をスケール選択に活用する。
Pascal ContextとADE20Kデータセットに関する我々の実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。
論文 参考訳(メタデータ) (2022-05-14T13:11:39Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。