論文の概要: Local-to-Global Self-Attention in Vision Transformers
- arxiv url: http://arxiv.org/abs/2107.04735v1
- Date: Sat, 10 Jul 2021 02:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:01:02.310407
- Title: Local-to-Global Self-Attention in Vision Transformers
- Title(参考訳): 視覚トランスフォーマーにおける局所からグローバルへの自己着脱
- Authors: Jinpeng Li, Yichao Yan, Shengcai Liao, Xiaokang Yang, Ling Shao
- Abstract要約: トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
- 参考スコア(独自算出の注目度): 130.0369761612812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have demonstrated great potential in computer vision tasks. To
avoid dense computations of self-attentions in high-resolution visual data,
some recent Transformer models adopt a hierarchical design, where
self-attentions are only computed within local windows. This design
significantly improves the efficiency but lacks global feature reasoning in
early stages. In this work, we design a multi-path structure of the
Transformer, which enables local-to-global reasoning at multiple granularities
in each stage. The proposed framework is computationally efficient and highly
effective. With a marginal increasement in computational overhead, our model
achieves notable improvements in both image classification and semantic
segmentation. Code is available at https://github.com/ljpadam/LG-Transformer
- Abstract(参考訳): トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
高解像度の視覚データにおける自己注意の密度計算を避けるため、最近のTransformerモデルは階層設計を採用しており、ローカルウィンドウ内でのみ自己注意が計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論を欠いている。
本研究では,各ステージの複数の粒度で局所からグローバルへの推論を可能にする変圧器のマルチパス構造を設計する。
提案するフレームワークは計算効率が高く,有効である。
計算オーバーヘッドが極端に増加し,画像分類とセマンティックセグメンテーションの両方において顕著な改善が得られた。
コードはhttps://github.com/ljpadam/LG-Transformerで入手できる。
関連論文リスト
- An Efficient and Effective Transformer Decoder-Based Framework for Multi-Task Visual Grounding [17.855998090452058]
トランスフォーマーデコーダをベースとした,効率的なマルチタスクビジュアルグラウンドティングフレームワークを提案する。
言語的側面では、言語的特徴がメモリとして入力され、視覚的特徴がクエリとして入力される、視覚的特徴と言語的特徴を融合するためにTransformer Decoderを使用します。
視覚的側面では、注目スコアに基づく背景視覚トークンを排除し、パラメータフリーで計算を削減できる手法を導入する。
論文 参考訳(メタデータ) (2024-08-02T09:01:05Z) - SGFormer: Simplifying and Empowering Transformers for Large-Graph Representations [75.71298846760303]
ノード特性予測ベンチマークにおいて,一層注意が驚くほど高い性能を示すことを示す。
提案手法をSGFormer (Simplified Graph Transformer) と呼ぶ。
提案手法は,大きなグラフ上にトランスフォーマーを構築する上で,独立性のある新たな技術パスを啓蒙するものである。
論文 参考訳(メタデータ) (2023-06-19T08:03:25Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Semantic-Aware Local-Global Vision Transformer [24.55333039729068]
セマンティック・アウェア・ローカル・グローバル・ビジョン・トランス(SALG)を提案する。
我々のSALGは教師なしの方法でセマンティックセグメンテーションを行い、画像の根底にあるセマンティックセグメンテーションを探索する。
このモデルでは,各トークンの特徴を学習する際に,グローバルなビューを得ることができる。
論文 参考訳(メタデータ) (2022-11-27T03:16:00Z) - SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。
我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。
実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-08-03T12:57:00Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - MSG-Transformer: Exchanging Local Spatial Information by Manipulating
Messenger Tokens [129.10351459066501]
メッセンジャー(MSG)として機能する各領域に特化トークンを提案する。
これらのMSGトークンを操作することで、領域間で柔軟に視覚情報を交換することができる。
次に、MSGトークンをMSG-Transformerというマルチスケールアーキテクチャに統合する。
論文 参考訳(メタデータ) (2021-05-31T17:16:42Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。