論文の概要: RedVTP: Training-Free Acceleration of Diffusion Vision-Language Models Inference via Masked Token-Guided Visual Token Pruning
- arxiv url: http://arxiv.org/abs/2511.12428v1
- Date: Sun, 16 Nov 2025 03:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.088717
- Title: RedVTP: Training-Free Acceleration of Diffusion Vision-Language Models Inference via Masked Token-Guided Visual Token Pruning
- Title(参考訳): RedVTP:masked Token-Guided Visual Token Pruningによる拡散視覚言語モデルの学習自由加速
- Authors: Jingqi Xu, Jingxi Lu, Chenghao Li, Sreetama Sarkar, Souvik Kundu, Peter A. Beerel,
- Abstract要約: Diffusion Vision-Language Models (DVLM) は並列トークンデコードを可能にするため特に魅力的である。
RedVTPは、DVLMの推論ダイナミクスを活用する、応答駆動型ビジュアルトークンプルーニング戦略である。
実験の結果、RedVTPはLLaDA-VとLaViDaのトークン生成スループットをそれぞれ186%、28.05%改善した。
- 参考スコア(独自算出の注目度): 17.866431817324365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have achieved remarkable progress in multimodal reasoning and generation, yet their high computational demands remain a major challenge. Diffusion Vision-Language Models (DVLMs) are particularly attractive because they enable parallel token decoding, but the large number of visual tokens still significantly hinders their inference efficiency. While visual token pruning has been extensively studied for autoregressive VLMs (AVLMs), it remains largely unexplored for DVLMs. In this work, we propose RedVTP, a response-driven visual token pruning strategy that leverages the inference dynamics of DVLMs. Our method estimates visual token importance using attention from the masked response tokens. Based on the observation that these importance scores remain consistent across steps, RedVTP prunes the less important visual tokens from the masked tokens after the first inference step, thereby maximizing inference efficiency. Experiments show that RedVTP improves token generation throughput of LLaDA-V and LaViDa by up to 186% and 28.05%, respectively, and reduces inference latency by up to 64.97% and 21.87%, without compromising-and in some cases improving-accuracy.
- Abstract(参考訳): VLM(Vision-Language Models)はマルチモーダル推論と生成において顕著な進歩を遂げているが、その高い計算要求は依然として大きな課題である。
Diffusion Vision-Language Models (DVLM) は並列トークン復号を可能にするため特に魅力的であるが、多くの視覚トークンは推論効率を著しく損なう。
視覚的トークンプルーニングは自己回帰型VLM (AVLMs) で広く研究されているが、DVLMでは探索されていない。
本研究では,DVLMの推論力学を利用した応答駆動型ビジュアルトークンプルーニング戦略であるRedVTPを提案する。
本手法は,マスクされた応答トークンからの注意力を用いて,視覚的トークンの重要性を推定する。
これらの重要なスコアがステップ間で一貫しているという観察に基づいて、RedVTPは第1の推論ステップの後、マスクされたトークンから重要でない視覚トークンを抽出し、推論効率を最大化する。
実験の結果、RedVTPはLLaDA-VとLaViDaのトークン生成スループットを最大186%、28.05%改善し、推論遅延を最大64.97%、そして21.87%削減する。
関連論文リスト
- HiViS: Hiding Visual Tokens from the Drafter for Speculative Decoding in Vision-Language Models [23.98782884568504]
視覚言語モデル(HiViS)における投機的復号化のためのドナーからの視覚トークンの隠蔽を提案する。
HiViSは、視覚言語モデルにおける投機的復号化の非効率性を緩和する明示的単純入力分解フレームワークである。
提案手法は, プリフィルシーケンス長を目標VLM入力の0.7%-1.3%に圧縮する。
論文 参考訳(メタデータ) (2025-09-28T15:05:21Z) - Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance [60.028070589466445]
Pyramid Token Pruning (PTP) は、階層的にボトムアップの視覚的サリエンスとトークンレベルをトップダウンの指導誘導の関連性と統合する、トレーニング不要の戦略である。
PTPは計算コスト、メモリ使用量、推論遅延を大幅に削減し、性能劣化を無視できることを示した。
論文 参考訳(メタデータ) (2025-09-19T07:28:17Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - AdaFV: Rethinking of Visual-Language alignment for VLM acceleration [7.9213473377478865]
偏りのあるVLMの自己アテンションに応じて視覚トークンを減らすいくつかのアプローチは、不正確な応答をもたらす。
本稿では,視覚的満足度とテキスト・ツー・イメージの類似性の有効性を動的に活用する,自己適応型クロスモーダリティ・アテンション・ミックス機構を提案する。
提案手法は,特に縮小速度が十分に大きい場合,最先端のトレーニング不要なVLM加速性能を実現する。
論文 参考訳(メタデータ) (2025-01-16T13:34:33Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving [9.900979396513687]
MLLM(Multimodal large language model)は、自律運転システムにおけるシーン理解の促進に顕著な可能性を示している。
1つの大きな制限は、細粒度で長文の視覚情報を取得するのに必要な多数の視覚トークンから生じる。
本稿では,視覚トークンの総数を大幅に削減し,最も有能な情報を保存するためのビデオトークンスペーシフィケーション(VTS)を提案する。
論文 参考訳(メタデータ) (2024-09-16T05:31:01Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。