論文の概要: Robustifying Token Attention for Vision Transformers
- arxiv url: http://arxiv.org/abs/2303.11126v3
- Date: Wed, 6 Sep 2023 11:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 19:27:30.184305
- Title: Robustifying Token Attention for Vision Transformers
- Title(参考訳): 視覚トランスフォーマーのロバスト化トークン注意
- Authors: Yong Guo, David Stutz, Bernt Schiele
- Abstract要約: ビジョントランスフォーマー(ViT)は、一般的な汚職の存在下でも精度が著しく低下している。
本稿では,2つの一般的な手法を用いて,より注意を安定させる2つの手法を提案する。
まず,Token-Aware Average Pooling (TAP)モジュールは,各トークンの局所的近傍に注意機構に参加することを奨励する。
第二に、出力トークンは、ほんの少しだけに集中するのではなく、多様な入力トークンの集合から情報を集約するように強制する。
- 参考スコア(独自算出の注目度): 72.07710236246285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of vision transformers (ViTs), they still suffer from
significant drops in accuracy in the presence of common corruptions, such as
noise or blur. Interestingly, we observe that the attention mechanism of ViTs
tends to rely on few important tokens, a phenomenon we call token overfocusing.
More critically, these tokens are not robust to corruptions, often leading to
highly diverging attention patterns. In this paper, we intend to alleviate this
overfocusing issue and make attention more stable through two general
techniques: First, our Token-aware Average Pooling (TAP) module encourages the
local neighborhood of each token to take part in the attention mechanism.
Specifically, TAP learns average pooling schemes for each token such that the
information of potentially important tokens in the neighborhood can adaptively
be taken into account. Second, we force the output tokens to aggregate
information from a diverse set of input tokens rather than focusing on just a
few by using our Attention Diversification Loss (ADL). We achieve this by
penalizing high cosine similarity between the attention vectors of different
tokens. In experiments, we apply our methods to a wide range of transformer
architectures and improve robustness significantly. For example, we improve
corruption robustness on ImageNet-C by 2.4% while improving accuracy by 0.4%
based on state-of-the-art robust architecture FAN. Also, when fine-tuning on
semantic segmentation tasks, we improve robustness on CityScapes-C by 2.4% and
ACDC by 3.0%. Our code is available at https://github.com/guoyongcs/TAPADL.
- Abstract(参考訳): 視覚変換器(ViT)の成功にもかかわらず、ノイズやぼやけなどの一般的な汚職の存在下では精度が著しく低下している。
興味深いことに、ViTの注意機構は重要なトークンをほとんど依存しない傾向にあり、これはトークンの過剰フォーカスと呼ばれる現象である。
より批判的に、これらのトークンは腐敗に対して堅牢ではなく、しばしば高度に異なる注意パターンをもたらす。
本稿では,この過度に焦点をあてる問題を緩和し,2つの一般的な手法により,より安定した注意力を持たせることを目的とする。
具体的には、TAPは各トークンの平均プール方式を学習し、近隣の潜在的に重要なトークンに関する情報を適応的に考慮することができる。
第2に,ADL(Attention Diversification Loss)を用いることで,入力トークンの多様な集合から情報を集約するように,出力トークンを強制的に強制する。
異なるトークンのアテンションベクトル間のコサイン類似性を高いペナリゼーションにより達成する。
実験では,本手法を多種多様な変圧器アーキテクチャに適用し,ロバスト性を大幅に向上する。
例えば、ImageNet-Cの破壊堅牢性を2.4%改善し、最先端のロバストアーキテクチャFANに基づいて精度を0.4%改善する。
また,セマンティックセグメンテーションタスクを微調整すると,CityScapes-Cでは2.4%,ACDCでは3.0%の堅牢性が向上する。
私たちのコードはhttps://github.com/guoyongcs/TAPADLで利用可能です。
関連論文リスト
- A2SF: Accumulative Attention Scoring with Forgetting Factor for Token Pruning in Transformer Decoder [1.6114012813668932]
本稿では, 留意点蓄積プロセスにおいて, 留意点累積係数を導入した累積留意点 (A2SF) 手法を提案する。
A2SFは古いトークンから生成された過去の注意スコアにペナルティを適用します。
OPTおよびLLaMAモデルにおけるA2SFによる精度向上を検証し、A2SFは1ショットと0ショットでLLaMA 2の精度を最大7.8%改善する。
論文 参考訳(メタデータ) (2024-07-30T01:13:42Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。
まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。
第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-20T17:56:16Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - Sparsifiner: Learning Sparse Instance-Dependent Attention for Efficient
Vision Transformers [34.19166698049552]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、パフォーマンス面での競争上の優位性を示している。
本稿では、軽量接続予測モジュールを考案し、インスタンス依存の注意パターンを学習するための新しいアプローチを提案する。
その結果,MHSAでは48%から69%のFLOPが減少し,精度は0.4%に低下した。
論文 参考訳(メタデータ) (2023-03-24T02:12:28Z) - Beyond Attentive Tokens: Incorporating Token Importance and Diversity
for Efficient Vision Transformers [32.972945618608726]
視覚変換器は様々な視覚タスクにおいて大幅に改善されているが、トークン間の2次相互作用は計算効率を大幅に低下させた。
本稿では,トークン分離におけるトークンの重要性と多様性を共同で検討できる,効率的なトークン分離とマージ手法を提案する。
FLOPを40%削減した後,DeiT-Tの精度を0.1%向上させることができる。
論文 参考訳(メタデータ) (2022-11-21T09:57:11Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。
提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文 参考訳(メタデータ) (2021-05-28T06:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。