論文の概要: Beyond Attentive Tokens: Incorporating Token Importance and Diversity
for Efficient Vision Transformers
- arxiv url: http://arxiv.org/abs/2211.11315v1
- Date: Mon, 21 Nov 2022 09:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:00:39.062954
- Title: Beyond Attentive Tokens: Incorporating Token Importance and Diversity
for Efficient Vision Transformers
- Title(参考訳): 注意トークンを超えて:効率的な視覚トランスフォーマーのためのトークンの重要性と多様性
- Authors: Sifan Long and Zhen Zhao and Jimin Pi and Shengsheng Wang and Jingdong
Wang
- Abstract要約: 視覚変換器は様々な視覚タスクにおいて大幅に改善されているが、トークン間の2次相互作用は計算効率を大幅に低下させた。
本稿では,トークン分離におけるトークンの重要性と多様性を共同で検討できる,効率的なトークン分離とマージ手法を提案する。
FLOPを40%削減した後,DeiT-Tの精度を0.1%向上させることができる。
- 参考スコア(独自算出の注目度): 32.972945618608726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have achieved significant improvements on various vision
tasks but their quadratic interactions between tokens significantly reduce
computational efficiency. Many pruning methods have been proposed to remove
redundant tokens for efficient vision transformers recently. However, existing
studies mainly focus on the token importance to preserve local attentive tokens
but completely ignore the global token diversity. In this paper, we emphasize
the cruciality of diverse global semantics and propose an efficient token
decoupling and merging method that can jointly consider the token importance
and diversity for token pruning. According to the class token attention, we
decouple the attentive and inattentive tokens. In addition to preserving the
most discriminative local tokens, we merge similar inattentive tokens and match
homogeneous attentive tokens to maximize the token diversity. Despite its
simplicity, our method obtains a promising trade-off between model complexity
and classification accuracy. On DeiT-S, our method reduces the FLOPs by 35%
with only a 0.2% accuracy drop. Notably, benefiting from maintaining the token
diversity, our method can even improve the accuracy of DeiT-T by 0.1% after
reducing its FLOPs by 40%.
- Abstract(参考訳): 視覚トランスフォーマーは様々な視覚タスクにおいて大幅に改善されているが、トークン間の二次相互作用は計算効率を大幅に低下させる。
近年、効率的な視覚変換器のための冗長トークンを除去する多くのプルーニング法が提案されている。
しかし、既存の研究は主に局所的注意トークンを保存することの重要性に重点を置いているが、グローバルトークンの多様性を完全に無視している。
本稿では,多種多様なグローバルセマンティクスの重要さを強調し,トークンプルーニングにおけるトークンの重要性と多様性を共同で考慮できる効率的なトークンデカップリングとマージ手法を提案する。
クラストークンの注意に従って、注意トークンと注意トークンを分離します。
最も差別的な局所トークンを保存することに加えて、同様の不注意トークンをマージし、均一な注意トークンとマッチングしてトークンの多様性を最大化する。
その単純さにもかかわらず、モデル複雑性と分類精度の間に有望なトレードオフが得られる。
DeiT-Sでは,0.2%の精度低下でFLOPを35%削減する。
特に,トークンの多様性を維持することで,FLOPを40%減らした後,DeiT-Tの精度を0.1%向上させることができる。
関連論文リスト
- Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification [6.660834045805309]
BERTのような事前訓練されたトランスフォーマーは計算コストのかかる自己保持機構に悩まされる。
トークンプルーニングとトークンの組み合わせという2つの戦略を統合することを提案する。
さまざまなデータセットによる実験は、ベースラインモデルよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-03T12:51:52Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。
より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。
提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文 参考訳(メタデータ) (2023-06-08T02:58:15Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Sparsifiner: Learning Sparse Instance-Dependent Attention for Efficient
Vision Transformers [34.19166698049552]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、パフォーマンス面での競争上の優位性を示している。
本稿では、軽量接続予測モジュールを考案し、インスタンス依存の注意パターンを学習するための新しいアプローチを提案する。
その結果,MHSAでは48%から69%のFLOPが減少し,精度は0.4%に低下した。
論文 参考訳(メタデータ) (2023-03-24T02:12:28Z) - Robustifying Token Attention for Vision Transformers [72.07710236246285]
ビジョントランスフォーマー(ViT)は、一般的な汚職の存在下でも精度が著しく低下している。
本稿では,2つの一般的な手法を用いて,より注意を安定させる2つの手法を提案する。
まず,Token-Aware Average Pooling (TAP)モジュールは,各トークンの局所的近傍に注意機構に参加することを奨励する。
第二に、出力トークンは、ほんの少しだけに集中するのではなく、多様な入力トークンの集合から情報を集約するように強制する。
論文 参考訳(メタデータ) (2023-03-20T14:04:40Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Token-level Adaptive Training for Neural Machine Translation [84.69646428587548]
異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。
低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
論文 参考訳(メタデータ) (2020-10-09T05:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。