論文の概要: Semantic-Aware Local-Global Vision Transformer
- arxiv url: http://arxiv.org/abs/2211.14705v1
- Date: Sun, 27 Nov 2022 03:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:12:28.167444
- Title: Semantic-Aware Local-Global Vision Transformer
- Title(参考訳): 意味認識型局所的グローバルビジョントランスフォーマ
- Authors: Jiatong Zhang, Zengwei Yao, Fanglin Chen, Guangming Lu, and Wenjie Pei
- Abstract要約: セマンティック・アウェア・ローカル・グローバル・ビジョン・トランス(SALG)を提案する。
我々のSALGは教師なしの方法でセマンティックセグメンテーションを行い、画像の根底にあるセマンティックセグメンテーションを探索する。
このモデルでは,各トークンの特徴を学習する際に,グローバルなビューを得ることができる。
- 参考スコア(独自算出の注目度): 24.55333039729068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers have achieved remarkable progresses, among which Swin
Transformer has demonstrated the tremendous potential of Transformer for vision
tasks. It surmounts the key challenge of high computational complexity by
performing local self-attention within shifted windows. In this work we propose
the Semantic-Aware Local-Global Vision Transformer (SALG), to further
investigate two potential improvements towards Swin Transformer. First, unlike
Swin Transformer that performs uniform partition to produce equal size of
regular windows for local self-attention, our SALG performs semantic
segmentation in an unsupervised way to explore the underlying semantic priors
in the image. As a result, each segmented region can correspond to a
semantically meaningful part in the image, potentially leading to more
effective features within each of segmented regions. Second, instead of only
performing local self-attention within local windows as Swin Transformer does,
the proposed SALG performs both 1) local intra-region self-attention for
learning fine-grained features within each region and 2) global inter-region
feature propagation for modeling global dependencies among all regions.
Consequently, our model is able to obtain the global view when learning
features for each token, which is the essential advantage of Transformer. Owing
to the explicit modeling of the semantic priors and the proposed local-global
modeling mechanism, our SALG is particularly advantageous for small-scale
models when the modeling capacity is not sufficient for other models to learn
semantics implicitly. Extensive experiments across various vision tasks
demonstrates the merit of our model over other vision Transformers, especially
in the small-scale modeling scenarios.
- Abstract(参考訳): 視覚トランスフォーマーは著しく進歩し、スウィントランスフォーマーは視覚タスクにおけるトランスフォーマーの膨大な可能性を実証した。
シフトウィンドウ内で局所的な自己アテンションを行うことで、高い計算複雑性の鍵となる課題を克服する。
本研究では,Swin Transformerに対する2つの潜在的な改善点について検討するため,Semantic-Aware Local-Global Vision Transformer (SALG)を提案する。
まず,局所的な自己アテンションのために正規ウィンドウのサイズを均等に分割するSwin Transformerとは異なり,当社のSALGは教師なしの方法でセマンティックセグメンテーションを行い,画像の基盤となるセマンティックセグメンテーションを探索する。
その結果、各セグメント領域は画像内の意味的に意味のある部分に対応でき、セグメント領域ごとにより効果的な特徴をもたらす可能性がある。
次に、Swin Transformerのようにローカルウィンドウ内でのみローカル自己アテンションを実行する代わりに、提案したSALGが両方を実行する。
1)各地域におけるきめ細かい特徴を学習するための地域内自己注意
2)全地域間のグローバル依存関係をモデル化するためのグローバル地域間特徴伝達。
その結果,Transformerの重要な利点であるトークンごとの特徴を学習する際のグローバルビューが得られた。
セマンティクス事前の明示的なモデリングと提案する局所的グローバルモデリング機構により,モデル能力が他のモデルが暗黙的にセマンティクスを学ぶのに十分でない場合に,salgは特に小規模モデルにとって有利である。
様々な視覚タスクにわたる大規模な実験は、特に小規模のモデリングシナリオにおいて、他の視覚変換器よりもモデルの利点を示す。
関連論文リスト
- Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Full Contextual Attention for Multi-resolution Transformers in Semantic
Segmentation [76.93387214103863]
本稿ではグローバルトークンの概念を拡張し,GLobal Attention Multi- resolution transformer(GLAM)を構築する。
GLAMには学習可能なグローバルトークンが含まれている。
実験では、GLAM-SwinまたはGLAM-Swin-UNetはADE20KやCityscapesのバニラよりもかなり優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-12-15T15:19:09Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。