論文の概要: Vicinity Vision Transformer
- arxiv url: http://arxiv.org/abs/2206.10552v1
- Date: Tue, 21 Jun 2022 17:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 19:54:35.504120
- Title: Vicinity Vision Transformer
- Title(参考訳): 周辺視トランスフォーマ
- Authors: Weixuan Sun, Zhen Qin, Hui Deng, Jianyuan Wang, Yi Zhang, Kaihao
Zhang, Nick Barnes, Stan Birchfield, Lingpeng Kong, Yiran Zhong
- Abstract要約: 線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
- 参考スコア(独自算出の注目度): 53.43198716947792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers have shown great success on numerous computer vision
tasks. However, its central component, softmax attention, prohibits vision
transformers from scaling up to high-resolution images, due to both the
computational complexity and memory footprint being quadratic. Although linear
attention was introduced in natural language processing (NLP) tasks to mitigate
a similar issue, directly applying existing linear attention to vision
transformers may not lead to satisfactory results. We investigate this problem
and find that computer vision tasks focus more on local information compared
with NLP tasks. Based on this observation, we present a Vicinity Attention that
introduces a locality bias to vision transformers with linear complexity.
Specifically, for each image patch, we adjust its attention weight based on its
2D Manhattan distance measured by its neighbouring patches. In this case, the
neighbouring patches will receive stronger attention than far-away patches.
Moreover, since our Vicinity Attention requires the token length to be much
larger than the feature dimension to show its efficiency advantages, we further
propose a new Vicinity Vision Transformer (VVT) structure to reduce the feature
dimension without degenerating the accuracy. We perform extensive experiments
on the CIFAR100, ImageNet1K, and ADE20K datasets to validate the effectiveness
of our method. Our method has a slower growth rate of GFlops than previous
transformer-based and convolution-based networks when the input resolution
increases. In particular, our approach achieves state-of-the-art image
classification accuracy with 50% fewer parameters than previous methods.
- Abstract(参考訳): 視覚変換器は多くのコンピュータビジョンタスクで大きな成功を収めている。
しかし、その中心的なコンポーネントであるSoftmax attentionは、計算複雑性とメモリフットプリントが二次的であるため、視覚変換器が高解像度の画像にスケールアップすることを禁止している。
同様の問題を緩和するために自然言語処理(nlp)タスクに線形注意が導入されたが、既存の線形注意を視覚トランスフォーマーに直接適用することは、十分な結果をもたらすことはない。
この問題を調査し,コンピュータビジョンタスクがNLPタスクよりもローカル情報に重点を置いていることを見出した。
この観測に基づいて,線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
具体的には,各画像パッチに対して,隣接パッチを用いて測定した2次元マンハッタン距離に基づいて注意重みを調節する。
この場合、近隣のパッチは遠方のパッチよりも強い注目を集める。
さらに,その効率性を示すためにはトークン長を特徴量よりも大きくする必要があるため,精度を損なうことなく特徴量を削減する新しい近傍視覚トランスフォーマ(vvt)構造を提案する。
我々は,CIFAR100, ImageNet1K, ADE20Kデータセットについて広範囲に実験を行い,本手法の有効性を検証した。
提案手法は,入力解像度が大きくなると,従来のトランスフォーマーベースおよび畳み込みベースネットワークよりもGFlopsの速度が遅い。
特に,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
関連論文リスト
- DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Explicitly Increasing Input Information Density for Vision Transformers
on Small Datasets [26.257612622358614]
ビジョントランスフォーマーはビジョンタスクにおけるビジョントランスフォーマー(ViT)の実装が成功して以来、近年多くの注目を集めている。
本稿では,周波数領域における入力情報密度を明示的に向上することを提案する。
5つの小規模データセットに対して提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2022-10-25T20:24:53Z) - Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文 参考訳(メタデータ) (2021-12-21T18:52:33Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - Improve Vision Transformers Training by Suppressing Over-smoothing [28.171262066145612]
トランス構造をコンピュータビジョンのタスクに導入することで、従来の畳み込みネットワークよりも優れたスピード精度のトレードオフが得られます。
しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。
近年の研究では,視覚タスクの性能向上のために,畳み込み層を導入してトランスフォーマー構造を改良することを提案する。
論文 参考訳(メタデータ) (2021-04-26T17:43:04Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。