論文の概要: BOAT: Bilateral Local Attention Vision Transformer
- arxiv url: http://arxiv.org/abs/2201.13027v1
- Date: Mon, 31 Jan 2022 07:09:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 01:06:12.892552
- Title: BOAT: Bilateral Local Attention Vision Transformer
- Title(参考訳): BOAT:バイラテラルローカルアテンション・ビジョン・トランス
- Authors: Tan Yu, Gangming Zhao, Ping Li, Yizhou Yu
- Abstract要約: ViTやDeiTといった初期のビジョントランスフォーマーは、パッチの数が多ければ計算コストがかかるグローバルな自己アテンションを採用している。
最近のビジョントランスフォーマーでは、ローカルウィンドウ内で自己アテンションが計算されるローカル自己アテンション機構を採用している。
本稿では,特徴空間の局所的注意と画像空間の局所的注意とを融合した両眼的視線変換器(BOAT)を提案する。
- 参考スコア(独自算出の注目度): 70.32810772368151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers achieved outstanding performance in many computer vision
tasks. Early Vision Transformers such as ViT and DeiT adopt global
self-attention, which is computationally expensive when the number of patches
is large. To improve efficiency, recent Vision Transformers adopt local
self-attention mechanisms, where self-attention is computed within local
windows. Despite the fact that window-based local self-attention significantly
boosts efficiency, it fails to capture the relationships between distant but
similar patches in the image plane. To overcome this limitation of image-space
local attention, in this paper, we further exploit the locality of patches in
the feature space. We group the patches into multiple clusters using their
features, and self-attention is computed within every cluster. Such
feature-space local attention effectively captures the connections between
patches across different local windows but still relevant. We propose a
Bilateral lOcal Attention vision Transformer (BOAT), which integrates
feature-space local attention with image-space local attention. We further
integrate BOAT with both Swin and CSWin models, and extensive experiments on
several benchmark datasets demonstrate that our BOAT-CSWin model clearly and
consistently outperforms existing state-of-the-art CNN models and vision
Transformers.
- Abstract(参考訳): ビジョントランスフォーマーは多くのコンピュータビジョンタスクで優れたパフォーマンスを達成した。
ViTやDeiTといった初期のビジョントランスフォーマーは、パッチの数が多ければ計算コストがかかるグローバルな自己アテンションを採用している。
効率を向上させるため、最近のビジョントランスフォーマは、ローカルウィンドウ内でセルフアテンションが計算されるローカル自己アテンション機構を採用する。
ウィンドウベースのローカルなセルフアテンションは効率を著しく向上させるが、画像プレーンの遠方にあるが類似したパッチ間の関係を捉えることができない。
本稿では,画像空間の局所的注意の限界を克服するために,特徴空間におけるパッチの局所性をさらに活用する。
パッチを複数のクラスタにグループ化し、各クラスタ内で自己注意が計算されます。
このような機能空間のローカルな注意は、異なるローカルウィンドウ間のパッチ間の接続を効果的にキャプチャするが、それでも関連がある。
本稿では,特徴空間の局所的注意と画像空間の局所的注意とを融合した両眼的視線変換器(BOAT)を提案する。
BOATをSwinモデルとCSWinモデルの両方に統合し、いくつかのベンチマークデータセットで広範な実験を行い、BOAT-CSWinモデルは既存の最先端CNNモデルやビジョントランスフォーマーよりも明確に、一貫して優れていることを示した。
関連論文リスト
- Fusion of regional and sparse attention in Vision Transformers [4.782322901897837]
現代の視覚変換器は、ウィンドウやグリッド領域内で計算された注意を通して、ピクセル間の視覚的にインスパイアされた局所的な相互作用を利用する。
本稿では,地域情報とグローバル情報の両方を動的に統合した,地域的・疎外的な注意の混合であるAtrous Attentionを提案する。
我々のコンパクトモデルは、2850万パラメータ未満のImageNet-1Kで約84%の精度を達成し、最先端のMaxViTを0.42%上回った。
論文 参考訳(メタデータ) (2024-06-13T06:48:25Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - AxWin Transformer: A Context-Aware Vision Transformer Backbone with
Axial Windows [4.406336825345075]
最近Transformerは、強力なモデリング機能のために、いくつかのビジョンタスクで優れたパフォーマンスを示している。
ローカルウィンドウと軸方向ビューの両方でコンテキスト情報をモデル化するAxWin Attentionを提案する。
AxWin Attentionに基づいて、AxWin Transformerというコンテキスト認識型視覚変換器のバックボーンを開発する。
論文 参考訳(メタデータ) (2023-05-02T09:33:11Z) - Axially Expanded Windows for Local-Global Interaction in Vision
Transformers [1.583842747998493]
グローバルな自己注意は、特に高解像度の視覚タスクのために計算するのに非常に高価である。
本研究では,局所窓内における微粒な自己アテンションと水平軸および垂直軸における粗粒な自己アテンションを実現する軸方向拡張型ウィンドウ自己アテンション機構を開発した。
論文 参考訳(メタデータ) (2022-09-19T02:53:07Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Locally Shifted Attention With Early Global Integration [93.5766619842226]
本稿では,視覚変換器の初期層において,大域的相互作用と局所的相互作用の微粒化を可能にする手法を提案する。
CIFAR10, CIFAR100, ImageNetにおける画像分類において, 畳み込み法と変圧器法の両方よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:12:24Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。