論文の概要: Predicting Token Impact Towards Efficient Vision Transformer
- arxiv url: http://arxiv.org/abs/2305.14840v1
- Date: Wed, 24 May 2023 07:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 18:31:58.083019
- Title: Predicting Token Impact Towards Efficient Vision Transformer
- Title(参考訳): 効率的な視覚トランスフォーマへのトークンの影響予測
- Authors: Hong Wang, Su Yang, Xiaoke Huang, Weishan Zhang
- Abstract要約: 自己注意の前に無関係なトークンを減らすためのトークンフィルタリングは、効率的な視覚変換を実現するための簡単な方法である。
これは、機能選択の観点からトークンフィルタリングを閲覧する最初の作業であり、一度マスクされた損失をどの程度変えられるかに応じてトークンの重要性を重み付けします。
提案手法は, バックボーンを微調整により最適化した後, 光重み付きモデルに効率よくアプローチする方法を提供する。
- 参考スコア(独自算出の注目度): 9.349427774462365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token filtering to reduce irrelevant tokens prior to self-attention is a
straightforward way to enable efficient vision Transformer. This is the first
work to view token filtering from a feature selection perspective, where we
weigh the importance of a token according to how much it can change the loss
once masked. If the loss changes greatly after masking a token of interest, it
means that such a token has a significant impact on the final decision and is
thus relevant. Otherwise, the token is less important for the final decision,
so it can be filtered out. After applying the token filtering module
generalized from the whole training data, the token number fed to the
self-attention module can be obviously reduced in the inference phase, leading
to much fewer computations in all the subsequent self-attention layers. The
token filter can be realized using a very simple network, where we utilize
multi-layer perceptron. Except for the uniqueness of performing token filtering
only once from the very beginning prior to self-attention, the other core
feature making our method different from the other token filters lies in the
predictability of token impact from a feature selection point of view. The
experiments show that the proposed method provides an efficient way to approach
a light weighted model after optimized with a backbone by means of fine tune,
which is easy to be deployed in comparison with the existing methods based on
training from scratch.
- Abstract(参考訳): 自己注意の前に無関係なトークンを減らすためのトークンフィルタリングは、効率的な視覚変換を実現するための簡単な方法である。
これは、機能選択の観点からトークンフィルタリングを初めて見る作業であり、一度マスクされた損失をどの程度変えられるかに応じてトークンの重要性を重み付けします。
もし損失が利息のトークンをマスキングした後で大きく変化した場合、そのようなトークンは最終決定に重大な影響を与え、従って関連することを意味する。
そうでなければ、トークンは最終決定にはあまり重要ではないため、フィルタリングすることができる。
トレーニングデータ全体から一般化されたトークンフィルタリングモジュールを適用すると、自己照準モジュールに供給されるトークン番号が推論フェーズ内で明らかに減少し、その後のすべての自己照準層での計算量が大幅に減少する。
トークンフィルタは非常に単純なネットワークで実現でき、多層パーセプトロンを利用する。
自己アテンション前の初めから一度だけトークンフィルタリングを実行するという一意性を除けば、他のトークンフィルタとメソッドを異なるものにするのは、特徴選択の観点からトークンの影響を予測することにある。
提案手法は,スクラッチからのトレーニングに基づく既存手法と比較してデプロイが容易な微調整によってバックボーンを最適化した上で,軽量モデルにアプローチする効率的な方法であることを示す。
関連論文リスト
- ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。
まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。
第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-20T17:56:16Z) - Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。
より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。
提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文 参考訳(メタデータ) (2023-06-08T02:58:15Z) - Beyond Attentive Tokens: Incorporating Token Importance and Diversity
for Efficient Vision Transformers [32.972945618608726]
視覚変換器は様々な視覚タスクにおいて大幅に改善されているが、トークン間の2次相互作用は計算効率を大幅に低下させた。
本稿では,トークン分離におけるトークンの重要性と多様性を共同で検討できる,効率的なトークン分離とマージ手法を提案する。
FLOPを40%削減した後,DeiT-Tの精度を0.1%向上させることができる。
論文 参考訳(メタデータ) (2022-11-21T09:57:11Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Batch Normalization Tells You Which Filter is Important [49.903610684578716]
我々は,事前学習したCNNのBNパラメータに基づいて,各フィルタの重要性を評価することによって,簡易かつ効果的なフィルタ刈取法を提案する。
CIFAR-10とImageNetの実験結果から,提案手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-12-02T12:04:59Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。