論文の概要: DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference
- arxiv url: http://arxiv.org/abs/2602.18846v1
- Date: Sat, 21 Feb 2026 14:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.351274
- Title: DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference
- Title(参考訳): DUET-VLM:VLMトレーニングと推論のための2段階統合効率的なトーケン低減
- Authors: Aditya Kumar Singh, Hitesh Kandala, Pratik Prabhanjan Brahma, Zicheng Liu, Emad Barsoum,
- Abstract要約: DUET-VLMは汎用的なプラグアンドプレイデュアル圧縮フレームワークである。
精度を犠牲にすることなく、視覚的(イメージ/ビデオ)入力を小さくする堅牢な適応を可能にする。
本研究は,DUET-VLMによるエンドツーエンドトレーニングに焦点を当てた。
- 参考スコア(独自算出の注目度): 14.714791872881397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have achieved remarkable multimodal understanding and reasoning capabilities, yet remain computationally expensive due to dense visual tokenization. Existing efficiency approaches either merge redundant visual tokens or drop them progressively in language backbone, often trading accuracy for speed. In this work, we propose DUET-VLM, a versatile plug-and-play dual compression framework that consists of (a) vision-only redundancy aware compression of vision encoder's output into information-preserving tokens, followed by (b) layer-wise, salient text-guided dropping of visual tokens within the language backbone to progressively prune less informative tokens. This coordinated token management enables aggressive compression while retaining critical semantics. On LLaVA-1.5-7B, our approach maintains over 99% of baseline accuracy with 67% fewer tokens, and still retains >97% even at 89% reduction. With this dual-stage compression during training, it achieves 99.7% accuracy at 67% and 97.6% at 89%, surpassing prior SoTA visual token reduction methods across multiple benchmarks. When integrated into Video-LLaVA-7B, it even surpasses the baseline -- achieving >100% accuracy with a substantial 53.1% token reduction and retaining 97.6% accuracy under an extreme 93.4% setting. These results highlight end-to-end training with DUET-VLM, enabling robust adaptation to reduced visual (image/video) input without sacrificing accuracy, producing compact yet semantically rich representations within the same computational budget. Our code is available at https://github.com/AMD-AGI/DUET-VLM.
- Abstract(参考訳): 視覚言語モデル(VLM)は、目覚しいマルチモーダル理解と推論能力を達成したが、高密度な視覚トークン化のため計算コストは高い。
既存の効率性アプローチは、冗長なビジュアルトークンをマージするか、言語のバックボーンに徐々にドロップする。
本研究では,汎用的なプラグアンドプレイデュアル圧縮フレームワークであるDUET-VLMを提案する。
(a)視覚のみの冗長性を考慮した情報保存トークンへの視覚エンコーダの出力の圧縮
b) 階層的に、適切なテキスト誘導による言語バックボーン内の視覚トークンのドロップにより、より情報に乏しいトークンを段階的にプルーする。
この協調トークン管理は、クリティカルセマンティクスを維持しながら積極的な圧縮を可能にする。
LLaVA-1.5-7Bでは, 基準線精度は99%以上であり, トークンは67%少なく, 89%減量でも97%以上維持されている。
トレーニング中の2段圧縮では、99.7%の精度で67%、97.6%の精度で89%の精度で達成され、複数のベンチマークで以前のSoTAの視覚トークン削減手法を上回った。
Video-LLaVA-7Bに統合されると、ベースラインを超え、53.1%のトークン削減と97.6%の精度を極端に93.4%の精度で維持する。
これらの結果は、DUET-VLMによるエンドツーエンドのトレーニングを強調し、精度を犠牲にすることなく視覚的(イメージ/ビデオ)入力の堅牢な適応を可能にし、同じ計算予算内ではコンパクトだが意味的にリッチな表現を生成する。
私たちのコードはhttps://github.com/AMD-AGI/DUET-VLMで公開されています。
関連論文リスト
- PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective [59.24570811503256]
本稿では,視覚モデル(VLM)における冗長な視覚トークンを減らし,推論を高速化するPIO-FVLMを提案する。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持している。
論文 参考訳(メタデータ) (2026-02-04T15:33:10Z) - D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning [49.16227597771663]
D2Prunerは、デバイアスされた重要性と構造的なプルーニングメカニズムを組み合わせたフレームワークである。
FLOPを74.2%削減し、元の性能の99.2%を維持した。
既存の手法に比べて63.53%も改善されている。
論文 参考訳(メタデータ) (2025-12-22T14:42:31Z) - METok: Multi-Stage Event-based Token Compression for Efficient Long Video Understanding [55.38256656122857]
トレーニング不要なマルチステージイベントベースのToken圧縮フレームワークであるMETokを提案する。
我々はMETokが情報的視覚トークンを動的に選択することで効率と精度の最適なトレードオフを実現することを示す。
例えば、LongVA-7BをMETokに装備すると、80.6%のFLOPが削減され、93.5%のKVキャッシュメモリが節約される。
論文 参考訳(メタデータ) (2025-06-03T13:19:41Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models [8.636574530055817]
TokenCarveは、2段階のトークン圧縮フレームワークである。
ビジュアルトークンの数を22.2%に減らし、推論の1.23倍のスピードアップ、KVキャッシュストレージの64%の削減、精度の1.54%の低下を達成できる。
論文 参考訳(メタデータ) (2025-03-13T16:04:31Z) - SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル (VLM) では、視覚トークンはテキストトークンと比較して情報量が多すぎるにもかかわらず、計算オーバーヘッドがかなり大きい。
本稿では、余分なパラメータや微調整コストを不要とするSparseVLMと呼ばれるテキスト誘導型トレーニングフリートークン最適化機構を提案する。
論文 参考訳(メタデータ) (2024-10-06T09:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。