論文の概要: TinyDrop: Tiny Model Guided Token Dropping for Vision Transformers
- arxiv url: http://arxiv.org/abs/2509.03379v1
- Date: Wed, 03 Sep 2025 14:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.562943
- Title: TinyDrop: Tiny Model Guided Token Dropping for Vision Transformers
- Title(参考訳): TinyDrop: ビジョントランスフォーマーのためのタケドロップをガイドしたTiny Model
- Authors: Guoxin Wang, Qingyuan Wang, Binhua Huang, Shaowu Chen, Deepu John,
- Abstract要約: 視覚変換器(ViT)は画像分類において高い性能を達成するが、全ての画像トークンを処理することで高い計算コストを発生させる。
高精度を損なうことなく、大規模なViTにおける推論コストを削減するため、軽量ビジョンモデルでガイドされるトレーニング不要なトークンドロップフレームワークであるTinyDropを提案する。
- 参考スコア(独自算出の注目度): 5.232173428375036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) achieve strong performance in image classification but incur high computational costs from processing all image tokens. To reduce inference costs in large ViTs without compromising accuracy, we propose TinyDrop, a training-free token dropping framework guided by a lightweight vision model. The guidance model estimates the importance of tokens while performing inference, thereby selectively discarding low-importance tokens if large vit models need to perform attention calculations. The framework operates plug-and-play, requires no architectural modifications, and is compatible with diverse ViT architectures. Evaluations on standard image classification benchmarks demonstrate that our framework reduces FLOPs by up to 80% for ViTs with minimal accuracy degradation, highlighting its generalization capability and practical utility for efficient ViT-based classification.
- Abstract(参考訳): 視覚変換器(ViT)は画像分類において高い性能を達成するが、全ての画像トークンを処理することで高い計算コストを発生させる。
高精度を損なうことなく、大規模なViTにおける推論コストを削減するため、軽量ビジョンモデルでガイドされるトレーニング不要なトークンドロップフレームワークであるTinyDropを提案する。
誘導モデルは、推論を行う際にトークンの重要性を推定し、大きなビットモデルで注意計算を行う必要がある場合、低重要トークンを選択的に破棄する。
このフレームワークはプラグイン・アンド・プレイを運用し、アーキテクチャの変更は必要とせず、様々なViTアーキテクチャと互換性がある。
標準画像分類ベンチマークによる評価では, FLOPの精度低下を最小限に抑えながら, FLOPを最大80%削減し, その一般化能力と, 効率的なVT分類のための実用性を強調した。
関連論文リスト
- End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation [18.9885501527331]
ビジョントランスフォーマー(ViT)は多くのセグメンテーションモデルのバックボーンとして登場し、常に最先端(SOTA)のパフォーマンスを実現している。
より複雑なタスク指向セグメンテーション(TOS)に適用した場合、以前のアプローチは、各イメージパッチのクラスは事前に定義されていないが、特定の入力タスクに依存する。
この研究は、ViTベースのセグメンテーションモデルを加速できる新しいトークンプルーニング機構であるVision Language Guided Token Pruning (VLTP)を導入している。
論文 参考訳(メタデータ) (2024-09-13T01:30:24Z) - No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文 参考訳(メタデータ) (2023-10-09T12:10:41Z) - PPT: Token Pruning and Pooling for Efficient Vision Transformers [7.792045532428676]
我々は新しいアクセラレーションフレームワーク、すなわちトークン・プルーニング・アンド・プール変換器(PPT)を提案する。
PPTは、トレーニング可能なパラメータを追加せずに、トークンプーリングとトークンプーリングの両方をViTsに統合する。
37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善する。
論文 参考訳(メタデータ) (2023-10-03T05:55:11Z) - SPViT: Enabling Faster Vision Transformers via Soft Token Pruning [38.10083471492964]
ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。
平板およびCNN型構造のバニラ変圧器に設定できる計算対応ソフトプルーニングフレームワークを提案する。
我々のフレームワークは、画像分類に匹敵する性能を維持しながら、ViTの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-12-27T20:15:25Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。