論文の概要: ToFe: Lagged Token Freezing and Reusing for Efficient Vision Transformer Inference
- arxiv url: http://arxiv.org/abs/2507.16260v1
- Date: Tue, 22 Jul 2025 06:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.988292
- Title: ToFe: Lagged Token Freezing and Reusing for Efficient Vision Transformer Inference
- Title(参考訳): ToFe:効率的な視覚変換器推論のためのタグ付きトークン凍結と再利用
- Authors: Haoyue Zhang, Jie Zhang, Song Guo,
- Abstract要約: そこで我々は,各段階で重要なトークンを識別し,重要でないトークンを一時的に凍結する新しいToken Freezing and Reusingフレームワークを紹介した。
ToFeは、トップ1精度の2%以下でLV-ViTモデルの計算コストを50%削減する。
- 参考スコア(独自算出の注目度): 12.986605266786839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although vision transformers (ViT) have shown remarkable success in various vision tasks, their computationally expensive self-attention hinder their deployment on resource-constrained devices. Token reduction, which discards less important tokens during forward propagation, has been proposed to enhance the efficiency of transformer models. However, existing methods handle unimportant tokens irreversibly, preventing their reuse in subsequent blocks. Considering that transformers focus on different information among blocks, tokens reduced in early blocks might be useful later. Furthermore, to adapt transformer models for resource-constrained devices, it is crucial to strike a balance between model performance and computational overhead. To address these challenges, in this paper, we introduce a novel Token Freezing and Reusing (ToFe) framework, where we identify important tokens at each stage and temporarily freeze the unimportant ones, allowing their lagged reusing at a later stage. Specifically, we design a prediction module for token identification and an approximate module for recovery of the frozen tokens. By jointly optimizing with the backbone through computation budget-aware end-to-end training, ToFe can adaptively process the necessary tokens at each block, thereby reducing computational cost while maintaining performance. Extensive experiments demonstrate that ToFe reduces the computational cost of LV-ViT model by 50% with less than 2% drop in Top-1 accuracy, achieving a better trade-off between performance and complexity compared to state-of-the-art methods.
- Abstract(参考訳): 視覚変換器(ViT)は様々な視覚タスクにおいて顕著な成功を収めているが、計算的に高価な自己注意はリソース制約のあるデバイスへの展開を妨げる。
前方伝播中にあまり重要でないトークンを捨てるトークン削減は, トランスモデルの効率を高めるために提案されている。
しかし、既存のメソッドは重要でないトークンを不可逆的に処理し、その後のブロックでの再利用を防ぐ。
トランスフォーマーがブロック間で異なる情報にフォーカスしていることを考えると、初期ブロックで減少するトークンは後ほど有用かもしれない。
さらに,資源制約のあるデバイスにトランスフォーマーモデルを適用するためには,モデル性能と計算オーバーヘッドのバランスをとることが重要である。
これらの課題に対処するため,本稿では,各段階で重要なトークンを識別し,重要でないトークンを一時的に凍結するToken Freezing and Reusing(ToFe)フレームワークについて紹介する。
具体的には、トークン識別のための予測モジュールと、凍結したトークンの回収のための近似モジュールを設計する。
計算予算を意識したエンドツーエンドのトレーニングを通じてバックボーンと共同で最適化することにより、ToFeは各ブロックで必要なトークンを適応的に処理し、パフォーマンスを維持しながら計算コストを削減できる。
大規模な実験により、ToFeはTop-1精度の2%以下でLV-ViTモデルの計算コストを50%削減し、最先端の手法に比べてパフォーマンスと複雑さのトレードオフを良好に達成した。
関連論文リスト
- Spark Transformer: Reactivating Sparsity in FFN and Attention [63.20677098823873]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。
これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文 参考訳(メタデータ) (2025-06-07T03:51:13Z) - Token Transforming: A Unified and Training-Free Token Compression Framework for Vision Transformer Acceleration [8.584066042703972]
本稿では,既存のすべてのメソッドを一般化する多対多のToken変換フレームワークを提案する。
具体的には、40%のFLOPを減らし、DeiT-Sを1.5ドル、限界0.1%の精度低下で加速する。
本手法をセグメント化,オブジェクト検出,深さ推定,言語モデル生成など,高密度な予測タスクに拡張する。
論文 参考訳(メタデータ) (2025-06-06T03:18:11Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - TPC-ViT: Token Propagation Controller for Efficient Vision Transformer [6.341420717393898]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにおいて有望な結果を得た。
この課題に対処するために、段階的なトークン削減を採用する以前のアプローチでは、ひとつのレイヤにおけるトークンの冗長性は、以下のすべてのレイヤにおける冗長性を意味すると仮定されている。
本稿では、2つの異なるトークン分布を組み込んだ新しいトークン伝搬制御器(TPC)を提案する。
論文 参考訳(メタデータ) (2024-01-03T00:10:33Z) - PPT: Token Pruning and Pooling for Efficient Vision Transformers [7.792045532428676]
我々は新しいアクセラレーションフレームワーク、すなわちトークン・プルーニング・アンド・プール変換器(PPT)を提案する。
PPTは、トレーニング可能なパラメータを追加せずに、トークンプーリングとトークンプーリングの両方をViTsに統合する。
37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善する。
論文 参考訳(メタデータ) (2023-10-03T05:55:11Z) - Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。
より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。
提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文 参考訳(メタデータ) (2023-06-08T02:58:15Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。