論文の概要: A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2511.15098v1
- Date: Wed, 19 Nov 2025 04:13:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.6288
- Title: A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models
- Title(参考訳): 離散拡散に基づく多モード大言語モデルのための視覚的トークン冗長性に関する総合的研究
- Authors: Duo Li, Zuhao Yang, Xiaoqin Zhang, Ling Shao, Shijian Lu,
- Abstract要約: 我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
- 参考スコア(独自算出の注目度): 85.30893355216486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete diffusion-based multimodal large language models (dMLLMs) have emerged as a promising alternative to autoregressive MLLMs thanks to their advantages in parallel decoding and bidirectional context modeling, but most existing dMLLMs incur significant computational overhead during inference due to the full-sequence attention computation in each denoising step. Pioneer studies attempt to resolve this issue from a modality-agnostic perspective via key-value cache optimization or efficient sampling but most of them overlook modality-specific visual token redundancy. In this work, we conduct a comprehensive study on how visual token redundancy evolves with different dMLLM architectures and tasks and how visual token pruning affects dMLLM responses and efficiency. Specifically, our study reveals that visual redundancy emerges only in from-scratch dMLLMs while handling long-answer tasks. In addition, we validate that visual token pruning introduces non-negligible information loss in dMLLMs and only from-scratch dMLLMs can recover the lost information progressively during late denoising steps. Furthermore, our study shows that layer-skipping is promising for accelerating AR-to-diffusion dMLLMs, whereas progressive or late-step pruning is more effective for from-scratch dMLLMs. Overall, this work offers a new perspective on efficiency optimization for dMLLMs, greatly advancing their applicability across various multimodal understanding tasks.
- Abstract(参考訳): 離散拡散に基づくマルチモーダル大言語モデル (dMLLM) は, 並列デコーディングと双方向コンテキストモデリングの利点により, 自己回帰型MLLMの代替として有望な存在となっている。
パイオニアの研究は、鍵値キャッシュ最適化や効率的なサンプリングを通じて、モダリティ非依存の観点からこの問題を解決しようとするが、そのほとんどは、モダリティ固有の視覚トークンの冗長性を見落としている。
本研究では,異なるdMLLMアーキテクチャとタスクを用いて,視覚トークンの冗長性がどのように進化するか,また,視覚トークンのプルーニングがdMLLMの応答と効率に与える影響について,包括的な研究を行う。
具体的には, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMにのみ出現することを明らかにする。
さらに、視覚的トークンプルーニングは、dMLLMにおける非無視情報損失を生じさせ、オフスクラッチdMLLMだけが遅延復調段階において失った情報を段階的に回復可能であることを検証した。
さらに本研究では,AR-to-diffusion dMLLMの高速化が期待できるが,プログレッシブプルーニングやレイトステッププルーニングはより効果的であることを示す。
全体として、この研究は、dMLLMの効率最適化に関する新たな視点を提供し、様々なマルチモーダル理解タスクにまたがる適用性を大幅に向上させた。
関連論文リスト
- Visual Instruction Bottleneck Tuning [11.675789515164269]
マルチモーダルな大言語モデル(MLLM)は、分散シフトの下で不慣れなクエリに遭遇した場合、性能が低下する。
本稿では,表現学習の観点からMLLMの一般化とロバスト性を高めるための代替手法を提案する。
情報ボトルネック(IB)の原則にインスパイアされた我々は、MLLMのためのIBの変動的下限を導出し、実用的な実装であるVisual Instruction Bottleneck Tuning(Vittle)を考案する。
論文 参考訳(メタデータ) (2025-05-20T05:24:53Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance [9.782362715017596]
視覚トークン列の長さを削減するために設計された,シンプルで効果的なプラグアンドプレイモジュールであるFOLDERを紹介する。
我々は、異なる還元戦略によってもたらされた情報損失を分析し、視覚的冗長性を取り除きながら鍵情報を保存するFOLDERを開発した。
FOLDERは、オリジナルのモデルと同等またはそれ以上のパフォーマンスを達成すると同時に、最大70%のビジュアルトークンを削除することで、複雑さを劇的に低減する。
論文 参考訳(メタデータ) (2025-01-05T03:28:45Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs [14.533229831531168]
MLLMの効率向上を目的とした新しい手法であるTRIM(CLIP Metric)を導入する。
視覚質問応答(VQA)タスクにおける人間の注意パターンにインスパイアされたTRIMは、画像トークンの選択と縮小について、新たな視点を示す。
その結果,一貫した性能を維持しながら計算オーバーヘッドを著しく低減した。
論文 参考訳(メタデータ) (2024-09-17T08:56:27Z) - CoMMIT: Coordinated Multimodal Instruction Tuning [90.1532838391285]
マルチモーダル大言語モデル(MLLM)は一般に、バックボーンLLMと非テキスト入力モードの特徴エンコーダ間の協調学習を含む。
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
本稿では,学習のバランスを定量的に測定できるマルチモーダルバランス係数を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。