論文の概要: Fusion of regional and sparse attention in Vision Transformers
- arxiv url: http://arxiv.org/abs/2406.08859v1
- Date: Thu, 13 Jun 2024 06:48:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 19:03:54.706544
- Title: Fusion of regional and sparse attention in Vision Transformers
- Title(参考訳): 視覚変換器における局所的・疎外的注意の融合
- Authors: Nabil Ibtehaz, Ning Yan, Masood Mortazavi, Daisuke Kihara,
- Abstract要約: 現代の視覚変換器は、ウィンドウやグリッド領域内で計算された注意を通して、ピクセル間の視覚的にインスパイアされた局所的な相互作用を利用する。
本稿では,地域情報とグローバル情報の両方を動的に統合した,地域的・疎外的な注意の混合であるAtrous Attentionを提案する。
我々のコンパクトモデルは、2850万パラメータ未満のImageNet-1Kで約84%の精度を達成し、最先端のMaxViTを0.42%上回った。
- 参考スコア(独自算出の注目度): 4.782322901897837
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern vision transformers leverage visually inspired local interaction between pixels through attention computed within window or grid regions, in contrast to the global attention employed in the original ViT. Regional attention restricts pixel interactions within specific regions, while sparse attention disperses them across sparse grids. These differing approaches pose a challenge between maintaining hierarchical relationships vs. capturing a global context. In this study, drawing inspiration from atrous convolution, we propose Atrous Attention, a blend of regional and sparse attention that dynamically integrates both local and global information while preserving hierarchical structures. Based on this, we introduce a versatile, hybrid vision transformer backbone called ACC-ViT, tailored for standard vision tasks. Our compact model achieves approximately 84% accuracy on ImageNet-1K with fewer than 28.5 million parameters, outperforming the state-of-the-art MaxViT by 0.42% while requiring 8.4% fewer parameters.
- Abstract(参考訳): 現代の視覚変換器は、元のViTで使われるグローバルな注目とは対照的に、ウィンドウやグリッド領域内で計算された注意を通して、ピクセル間の局所的な相互作用を視覚的にインスピレーションする。
局所的な注意は特定の領域内のピクセル相互作用を制限するが、スパースな注意はスパースグリッドに分散する。
これらの異なるアプローチは、階層的な関係を維持することと、グローバルなコンテキストをキャプチャすることの間に課題を生じさせる。
本研究では,アトラス・コンボリューションからインスピレーションを得たアトラス・アテンション (Atrous Attention) を提案する。アトラス・アテンション (Atrous Attention) とは,アトラス・アテンション (Atrous Attention) とアトラス・アテンション (Atrous Attention) の混合であり,アトラス・アテンション (Atrous Attention) とアトラス・アテンション (Atrous Attention) とアトラス・アテンション (Atrous Attention) とアトラス・アテンション (Atrous Attention)
そこで我々はACC-ViTと呼ばれる多用途ハイブリッドビジョントランスフォーマーのバックボーンを導入する。
我々のコンパクトモデルは、2850万パラメータ未満のImageNet-1Kで約84%の精度を達成し、8.4%のパラメータを必要としながら、最先端のMaxViTを0.42%上回った。
関連論文リスト
- ACC-ViT : Atrous Convolution's Comeback in Vision Transformers [5.224344210588584]
我々は,地域情報とグローバル情報の両方を適応的に統合できる,地域的・疎外的な注意の融合であるAtrous Attentionを紹介した。
また、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般的な視覚変換器のバックボーンを提案する。
そのためACC-ViTは強力なビジョンバックボーンであり、小さなデータセットを持つニッチアプリケーションには理想的だ。
論文 参考訳(メタデータ) (2024-03-07T04:05:16Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - DaViT: Dual Attention Vision Transformers [94.62855697081079]
デュアルアテンションビジョン変換器(DaViT)について紹介する。
DaViTは、計算効率を維持しながらグローバルなコンテキストをキャプチャできるビジョントランスフォーマーアーキテクチャである。
我々は,DaViTが4つのタスクにおける最先端の性能を効率よく計算できることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - BOAT: Bilateral Local Attention Vision Transformer [70.32810772368151]
ViTやDeiTといった初期のビジョントランスフォーマーは、パッチの数が多ければ計算コストがかかるグローバルな自己アテンションを採用している。
最近のビジョントランスフォーマーでは、ローカルウィンドウ内で自己アテンションが計算されるローカル自己アテンション機構を採用している。
本稿では,特徴空間の局所的注意と画像空間の局所的注意とを融合した両眼的視線変換器(BOAT)を提案する。
論文 参考訳(メタデータ) (2022-01-31T07:09:50Z) - RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition [26.090419694326823]
地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
論文 参考訳(メタデータ) (2021-07-17T06:22:20Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - RegionViT: Regional-to-Local Attention for Vision Transformers [17.70988054450176]
ビジョントランスフォーマー(ViT)は、画像分類における畳み込みニューラルネットワーク(CNN)に匹敵する結果を達成するための強力な能力を示している。
本稿では,ピラミッド構造を取り入れた新しい建築物を提案する。
我々のアプローチは、多くの並行処理を含む最先端のViT亜種に匹敵する、あるいは同等である。
論文 参考訳(メタデータ) (2021-06-04T19:57:11Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。