論文の概要: Focal Self-attention for Local-Global Interactions in Vision
Transformers
- arxiv url: http://arxiv.org/abs/2107.00641v1
- Date: Thu, 1 Jul 2021 17:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 14:02:04.246411
- Title: Focal Self-attention for Local-Global Interactions in Vision
Transformers
- Title(参考訳): 視覚トランスフォーマーにおける局所的グローバル相互作用に対する焦点自己付着
- Authors: Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Xiyang Dai, Bin Xiao, Lu
Yuan, Jianfeng Gao
- Abstract要約: 局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
- 参考スコア(独自算出の注目度): 90.9169644436091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Vision Transformer and its variants have shown great promise on
various computer vision tasks. The ability of capturing short- and long-range
visual dependencies through self-attention is arguably the main source for the
success. But it also brings challenges due to quadratic computational overhead,
especially for the high-resolution vision tasks (e.g., object detection). In
this paper, we present focal self-attention, a new mechanism that incorporates
both fine-grained local and coarse-grained global interactions. Using this new
mechanism, each token attends the closest surrounding tokens at fine
granularity but the tokens far away at coarse granularity, and thus can capture
both short- and long-range visual dependencies efficiently and effectively.
With focal self-attention, we propose a new variant of Vision Transformer
models, called Focal Transformer, which achieves superior performance over the
state-of-the-art vision Transformers on a range of public image classification
and object detection benchmarks. In particular, our Focal Transformer models
with a moderate size of 51.1M and a larger size of 89.8M achieve 83.5 and 83.8
Top-1 accuracy, respectively, on ImageNet classification at 224x224 resolution.
Using Focal Transformers as the backbones, we obtain consistent and substantial
improvements over the current state-of-the-art Swin Transformers for 6
different object detection methods trained with standard 1x and 3x schedules.
Our largest Focal Transformer yields 58.7/58.9 box mAPs and 50.9/51.3 mask mAPs
on COCO mini-val/test-dev, and 55.4 mIoU on ADE20K for semantic segmentation,
creating new SoTA on three of the most challenging computer vision tasks.
- Abstract(参考訳): 近年、Vision Transformerとその変種は様々なコンピュータビジョンタスクに対して大きな期待を示している。
短距離および長距離の視覚的依存関係を自己注意でキャプチャする能力は、間違いなく成功の主源である。
しかし、特に高解像度の視覚タスク(オブジェクト検出など)では、2次計算オーバーヘッドによる課題も生じている。
本稿では,局所的および粗粒な大域的相互作用を包含する新たなメカニズムである焦点自己注意を提案する。
この新しいメカニズムを使用すると、各トークンは細かい粒度で周囲のトークンに最も近いが、粒度は遠くなり、短距離と長距離の両方の視覚的依存関係を効率的かつ効果的に捉えることができる。
焦点自己注意型視覚変換器モデルであるFocal Transformerを提案する。このモデルでは,様々な画像分類とオブジェクト検出ベンチマークにおいて,最先端の視覚変換器よりも優れた性能を実現する。
特に、適度なサイズ51.1m、より大きなサイズ89.8mの焦点変圧器モデルは、224x224解像度のimagenet分類でそれぞれ83.5と83.8top-1の精度を達成している。
フォカトランスをバックボーンとして使用することにより,標準1倍および3倍のスケジュールでトレーニングされた6種類の物体検出手法に対して,現在のスウィントランスよりも一貫性と大幅な改善が得られた。
我々の最大のFocal Transformerは、COCO mini-val/test-dev上の58.7/58.9ボックスmAPと50.9/51.3マスクmAPと、セマンティックセグメンテーションのためのADE20K上の55.4mIoUを出力し、最も困難なコンピュータビジョンタスクの3つの新しいSoTAを生成する。
関連論文リスト
- Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped
Attention [28.44439386445018]
そこで我々は,淡い形の領域内で自己注意を行うPale-Shaped Self-Attentionを提案する。
グローバルな自己アテンションと比較すると、PS-Attentionは計算とメモリコストを大幅に削減できる。
モデルサイズ22M, 48M, 85Mで, 83.4%, 84.3%, 84.9%のTop-1精度を実現する。
論文 参考訳(メタデータ) (2021-12-28T05:37:24Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [44.086393272557416]
本稿では,コンピュータビジョンの汎用バックボーンとして機能する,Swin Transformerと呼ばれる新しいビジョントランスを提案する。
COCOの+2.7ボックスAPと+2.6マスクAP、ADE20Kの+3.2mIoUという大きなマージンで、トランスフォーマーベースのモデルのビジョンバックボーンとしての可能性を実証しています。
論文 参考訳(メタデータ) (2021-03-25T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。