論文の概要: DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference
- arxiv url: http://arxiv.org/abs/2602.18846v1
- Date: Sat, 21 Feb 2026 14:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.351274
- Title: DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference
- Title(参考訳): DUET-VLM:VLMトレーニングと推論のための2段階統合効率的なトーケン低減
- Authors: Aditya Kumar Singh, Hitesh Kandala, Pratik Prabhanjan Brahma, Zicheng Liu, Emad Barsoum,
- Abstract要約: DUET-VLMは汎用的なプラグアンドプレイデュアル圧縮フレームワークである。
精度を犠牲にすることなく、視覚的(イメージ/ビデオ)入力を小さくする堅牢な適応を可能にする。
本研究は,DUET-VLMによるエンドツーエンドトレーニングに焦点を当てた。
- 参考スコア(独自算出の注目度): 14.714791872881397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have achieved remarkable multimodal understanding and reasoning capabilities, yet remain computationally expensive due to dense visual tokenization. Existing efficiency approaches either merge redundant visual tokens or drop them progressively in language backbone, often trading accuracy for speed. In this work, we propose DUET-VLM, a versatile plug-and-play dual compression framework that consists of (a) vision-only redundancy aware compression of vision encoder's output into information-preserving tokens, followed by (b) layer-wise, salient text-guided dropping of visual tokens within the language backbone to progressively prune less informative tokens. This coordinated token management enables aggressive compression while retaining critical semantics. On LLaVA-1.5-7B, our approach maintains over 99% of baseline accuracy with 67% fewer tokens, and still retains >97% even at 89% reduction. With this dual-stage compression during training, it achieves 99.7% accuracy at 67% and 97.6% at 89%, surpassing prior SoTA visual token reduction methods across multiple benchmarks. When integrated into Video-LLaVA-7B, it even surpasses the baseline -- achieving >100% accuracy with a substantial 53.1% token reduction and retaining 97.6% accuracy under an extreme 93.4% setting. These results highlight end-to-end training with DUET-VLM, enabling robust adaptation to reduced visual (image/video) input without sacrificing accuracy, producing compact yet semantically rich representations within the same computational budget. Our code is available at https://github.com/AMD-AGI/DUET-VLM.
- Abstract(参考訳): 視覚言語モデル(VLM)は、目覚しいマルチモーダル理解と推論能力を達成したが、高密度な視覚トークン化のため計算コストは高い。
既存の効率性アプローチは、冗長なビジュアルトークンをマージするか、言語のバックボーンに徐々にドロップする。
本研究では,汎用的なプラグアンドプレイデュアル圧縮フレームワークであるDUET-VLMを提案する。
(a)視覚のみの冗長性を考慮した情報保存トークンへの視覚エンコーダの出力の圧縮
b) 階層的に、適切なテキスト誘導による言語バックボーン内の視覚トークンのドロップにより、より情報に乏しいトークンを段階的にプルーする。
この協調トークン管理は、クリティカルセマンティクスを維持しながら積極的な圧縮を可能にする。
LLaVA-1.5-7Bでは, 基準線精度は99%以上であり, トークンは67%少なく, 89%減量でも97%以上維持されている。
トレーニング中の2段圧縮では、99.7%の精度で67%、97.6%の精度で89%の精度で達成され、複数のベンチマークで以前のSoTAの視覚トークン削減手法を上回った。
Video-LLaVA-7Bに統合されると、ベースラインを超え、53.1%のトークン削減と97.6%の精度を極端に93.4%の精度で維持する。
これらの結果は、DUET-VLMによるエンドツーエンドのトレーニングを強調し、精度を犠牲にすることなく視覚的(イメージ/ビデオ)入力の堅牢な適応を可能にし、同じ計算予算内ではコンパクトだが意味的にリッチな表現を生成する。
私たちのコードはhttps://github.com/AMD-AGI/DUET-VLMで公開されています。
関連論文リスト
- Stateful Token Reduction for Long-Video Hybrid VLMs [69.6930118088911]
ハイブリッドビデオビジョン言語モデル(VLM)のクエリ条件付きトークン削減について検討する。
本稿では,低段階から高段階の減算スケジュールと,注意とマンバブロックの両ブロックを対象とした言語認識スコアリング機構を提案する。
積極的圧縮条件下では,本手法はテスト時にほぼベースライン精度で精度の高いプリフィルング・スピードアップを実現する。
論文 参考訳(メタデータ) (2026-02-27T08:11:06Z) - ApET: Approximation-Error Guided Token Compression for Efficient VLMs [16.4657793751671]
本稿では,近似エラーガイド付きToken圧縮フレームワークであるApETを紹介する。
ApETは、画像理解タスクのオリジナルパフォーマンスの95.2%を保持し、ビデオ理解タスクの100.4%を達成している。
ApETは無注意設計のため、FlashAttentionとシームレスに統合され、さらなる推論を可能にし、VLMのデプロイをより実用的なものにしている。
論文 参考訳(メタデータ) (2026-02-23T14:15:37Z) - Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models [34.12135666939555]
MLLM(Multimodal Large Language Models)は、複数の視覚トークンを全てのレイヤで処理することで、計算コストを大幅に削減する。
LLMの注意機構のみを用いて、視覚トークンを段階的に削減する、シンプルで広く適用可能な方法である、注意駆動型自己圧縮(ADSC)を導入する。
ADSCはFLOPを53.7%、KVキャッシュメモリを56.7%削減し、オリジナルモデルの98.2%を保存した。
論文 参考訳(メタデータ) (2026-02-13T04:49:27Z) - PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective [59.24570811503256]
本稿では,視覚モデル(VLM)における冗長な視覚トークンを減らし,推論を高速化するPIO-FVLMを提案する。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持している。
論文 参考訳(メタデータ) (2026-02-04T15:33:10Z) - D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning [49.16227597771663]
D2Prunerは、デバイアスされた重要性と構造的なプルーニングメカニズムを組み合わせたフレームワークである。
FLOPを74.2%削減し、元の性能の99.2%を維持した。
既存の手法に比べて63.53%も改善されている。
論文 参考訳(メタデータ) (2025-12-22T14:42:31Z) - Variation-aware Vision Token Dropping for Faster Large Vision-Language Models [24.952668143243542]
大規模視覚言語モデル(LVLM)はマルチモーダル理解タスクにおいて顕著な機能を示した。
トーケン圧縮は、処理されるトークンの数を減らすことにより、計算効率を向上させることにより、直接的な解を提供する。
我々は,LVLM推論中に最小限の変動を伴う視覚トークンを段階的に除去する,変分認識型視覚トークンドロップ(textiti.e., textbfV$2$Drop)を提案する。
論文 参考訳(メタデータ) (2025-09-01T15:28:44Z) - METok: Multi-Stage Event-based Token Compression for Efficient Long Video Understanding [55.38256656122857]
トレーニング不要なマルチステージイベントベースのToken圧縮フレームワークであるMETokを提案する。
我々はMETokが情報的視覚トークンを動的に選択することで効率と精度の最適なトレードオフを実現することを示す。
例えば、LongVA-7BをMETokに装備すると、80.6%のFLOPが削減され、93.5%のKVキャッシュメモリが節約される。
論文 参考訳(メタデータ) (2025-06-03T13:19:41Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models [8.636574530055817]
TokenCarveは、2段階のトークン圧縮フレームワークである。
ビジュアルトークンの数を22.2%に減らし、推論の1.23倍のスピードアップ、KVキャッシュストレージの64%の削減、精度の1.54%の低下を達成できる。
論文 参考訳(メタデータ) (2025-03-13T16:04:31Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル (VLM) では、視覚トークンはテキストトークンと比較して情報量が多すぎるにもかかわらず、計算オーバーヘッドがかなり大きい。
本稿では、余分なパラメータや微調整コストを不要とするSparseVLMと呼ばれるテキスト誘導型トレーニングフリートークン最適化機構を提案する。
論文 参考訳(メタデータ) (2024-10-06T09:18:04Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。