論文の概要: Efficient Token Pruning for LLaDA-V
- arxiv url: http://arxiv.org/abs/2601.20168v1
- Date: Wed, 28 Jan 2026 02:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.724682
- Title: Efficient Token Pruning for LLaDA-V
- Title(参考訳): LLaDA-Vの効率的なトーケンプルーニング
- Authors: Zhewen Wan, Tianchen Song, Chen Lin, Zhiyong Zhao, Xianpeng Lang,
- Abstract要約: LLaDA-Vのような拡散に基づく大規模マルチモーダルモデルは、視覚言語理解と生成において印象的な能力を示した。
我々は,自己回帰デコーダと異なり,LLaDA-Vは主に中間層から後期層に横断的な情報を集約する。
この観測により,我々はFastVに触発された構造化トークンプルーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 5.790228283932133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based large multimodal models, such as LLaDA-V, have demonstrated impressive capabilities in vision-language understanding and generation. However, their bidirectional attention mechanism and diffusion-style iterative denoising paradigm introduce significant computational overhead, as visual tokens are repeatedly processed across all layers and denoising steps. In this work, we conduct an in-depth attention analysis and reveal that, unlike autoregressive decoders, LLaDA-V aggregates cross-modal information predominantly in middle-to-late layers, leading to delayed semantic alignment. Motivated by this observation, we propose a structured token pruning strategy inspired by FastV, selectively removing a proportion of visual tokens at designated layers to reduce FLOPs while preserving critical semantic information. To the best of our knowledge, this is the first work to investigate structured token pruning in diffusion-based large multimodal models. Unlike FastV, which focuses on shallow-layer pruning, our method targets the middle-to-late layers of the first denoising step to align with LLaDA-V's delayed attention aggregation to maintain output quality, and the first-step pruning strategy reduces the computation across all subsequent steps. Our framework provides an empirical basis for efficient LLaDA-V inference and highlights the potential of vision-aware pruning in diffusion-based multimodal models. Across multiple benchmarks, our best configuration reduces computational cost by up to 65% while preserving an average of 95% task performance.
- Abstract(参考訳): LLaDA-Vのような拡散に基づく大規模マルチモーダルモデルは、視覚言語理解と生成において印象的な能力を示した。
しかし、その双方向の注意機構と拡散スタイルの反復的復調パラダイムは、視覚トークンを全ての層で繰り返し処理し、ステップを復調するなど、かなりの計算オーバーヘッドをもたらす。
本研究では, 自己回帰デコーダと異なり, LLaDA-V は中間層から後期層への相互情報を集約し, セマンティックアライメントが遅れることを明らかにする。
本稿では,FastVにインスパイアされた構造化トークンの切断戦略を提案し,決定された層における視覚的トークンの割合を選択的に除去し,FLOPを低減し,重要な意味情報を保存する。
我々の知る限りでは、拡散に基づく大規模マルチモーダルモデルにおける構造化トークンプルーニングの研究はこれが初めてである。
浅層プルーニングに焦点を当てたFastVとは異なり、本手法はLLaDA-Vの遅延注意集約と整合し、出力品質を維持するため、第1段階プルーニング戦略により、その後の全てのステップにおける計算が削減される。
我々のフレームワークは,効率的なLLaDA-V推論のための経験的基礎を提供し,拡散に基づくマルチモーダルモデルにおける視覚認識プルーニングの可能性を強調している。
複数のベンチマークで計算コストを最大65%削減し,平均95%のタスク性能を維持した。
関連論文リスト
- A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。
ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。
提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-09-12T05:55:32Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。