論文の概要: No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling
- arxiv url: http://arxiv.org/abs/2310.05654v1
- Date: Mon, 9 Oct 2023 12:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 05:11:45.342309
- Title: No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling
- Title(参考訳): トークンは残っていない:dynamic token idlingによる効率的な視覚トランスフォーマー
- Authors: Xuwei Xu, Changlin Li, Yudong Chen, Xiaojun Chang, Jiajun Liu, Sen
Wang
- Abstract要約: 視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
- 参考スコア(独自算出の注目度): 55.203866875294516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have demonstrated outstanding performance in
computer vision tasks, yet their high computational complexity prevents their
deployment in computing resource-constrained environments. Various token
pruning techniques have been introduced to alleviate the high computational
burden of ViTs by dynamically dropping image tokens. However, some undesirable
pruning at early stages may result in permanent loss of image information in
subsequent layers, consequently hindering model performance. To address this
problem, we propose IdleViT, a dynamic token-idle-based method that achieves an
excellent trade-off between performance and efficiency. Specifically, in each
layer, IdleViT selects a subset of the image tokens to participate in
computations while keeping the rest of the tokens idle and directly passing
them to this layer's output. By allowing the idle tokens to be re-selected in
the following layers, IdleViT mitigates the negative impact of improper pruning
in the early stages. Furthermore, inspired by the normalized graph cut, we
devise a token cut loss on the attention map as regularization to improve
IdleViT's token selection ability. Our method is simple yet effective and can
be extended to pyramid ViTs since no token is completely dropped. Extensive
experimental results on various ViT architectures have shown that IdleViT can
diminish the complexity of pretrained ViTs by up to 33\% with no more than
0.2\% accuracy decrease on ImageNet, after finetuning for only 30 epochs.
Notably, when the keep ratio is 0.5, IdleViT outperforms the state-of-the-art
EViT on DeiT-S by 0.5\% higher accuracy and even faster inference speed. The
source code is available in the supplementary material.
- Abstract(参考訳): ビジョントランスフォーマー (vits) はコンピュータビジョンタスクにおいて優れた性能を示しているが、その高い計算複雑性はリソース制約のある環境への展開を妨げている。
画像トークンを動的に落としてvitsの計算負荷を軽減するために,様々なトークンプルーニング技術が導入された。
しかし、初期の望ましくないプルーニングによって、後続の層で画像情報が永久に失われ、結果としてモデルの性能が損なわれる可能性がある。
この問題に対処するために,性能と効率の優れたトレードオフを実現する動的トークンアイドルベースのIdleViTを提案する。
具体的には、各レイヤにおいて、IdleViTは画像トークンのサブセットを選択して、残りのトークンをアイドル状態にして、直接このレイヤの出力に渡す。
アイドルトークンを次の層で再選択可能にすることで、IdleViTは初期において不適切なプルーニングによる負の影響を緩和する。
さらに,正規化グラフカットに触発されて,アテンションマップのトークンカット損失を正規化として考案し,idlevitのトークン選択能力を向上させる。
提案手法は単純だが有効であり,トークンを完全に落とさないため,ピラミッド型ViTにも拡張可能である。
各種ViTアーキテクチャの大規模な実験結果から,30時間で微調整した後のImageNetにおいて,IdleViTは事前学習したViTの複雑さを最大33\%まで低減できることがわかった。
特に、保留比が0.5の場合、IdleViTはDeiT-S上の最先端のEViTよりも0.5倍高い精度で高速な推論速度で性能を向上する。
ソースコードは補足資料で入手できる。
関連論文リスト
- VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation [18.9885501527331]
ビジョントランスフォーマー(ViT)は多くのセグメンテーションモデルのバックボーンとして登場し、常に最先端(SOTA)のパフォーマンスを実現している。
画像トークンのプルーニングは、この複雑さに対処する最も効果的な戦略の1つである。
この研究は、VLTP(Vision Language Guided Token Pruning)を導入し、ViTベースのセグメンテーションモデルを高速化する新しいトークンプルーニングメカニズムを紹介した。
論文 参考訳(メタデータ) (2024-09-13T01:30:24Z) - GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation [30.343504537684755]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野に革命をもたらしたが、リソースに制約のあるデバイスへの展開は依然として困難である。
ViTを高速化するために、トークンのプルーニングとトークンのマージアプローチが開発され、計算に関わるトークンの数を減らすことを目的としている。
本稿では,効率的なViTのためのモデル効率と情報保存のバランスをとることの課題を解決するために,グラフベースの新しいToken Propagation(GTP)手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T11:14:19Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Bridging The Gaps Between Token Pruning and Full Pre-training via Masked
Fine-tuning [19.391064062033436]
動的視覚変換器はトークンを冗長にプルーニングすることで推論を加速するために使用される。
現在のベースモデルは、通常フルイメージトレーニングを採用し、フルイメージを入力として使用し、フィーチャーマップ全体をフォワードプロセスを通して保持する。
マスクと自己教師付きタスクを行うMAEにインスパイアされた我々は、事前訓練されたベースモデルとトークンプルーニングに基づく動的視覚変換器のギャップを埋めるために、マスク付き微調整を考案した。
論文 参考訳(メタデータ) (2023-10-26T06:03:18Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。
より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。
提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文 参考訳(メタデータ) (2023-06-08T02:58:15Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。