論文の概要: D$^{3}$ToM: Decider-Guided Dynamic Token Merging for Accelerating Diffusion MLLMs
- arxiv url: http://arxiv.org/abs/2511.12280v1
- Date: Sat, 15 Nov 2025 16:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.798974
- Title: D$^{3}$ToM: Decider-Guided Dynamic Token Merging for Accelerating Diffusion MLLMs
- Title(参考訳): D$^{3}$ToM: 拡散MLLMの高速化のためのデシッドガイド動的トケマージ
- Authors: Shuochen Chang, Xiaofeng Zhang, Qingyang Liu, Li Niu,
- Abstract要約: 拡散に基づく多モード大言語モデル(拡散MLLM)は自己回帰モデルよりもかなり遅い推論を示す。
本稿では,拡散MLLMにおける推論を高速化する動的トークンマージ手法D$3$ToMを提案する。
実験によると、D$3$ToMは競合性能を維持しながら推論を加速する。
- 参考スコア(独自算出の注目度): 22.78575203353886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based multimodal large language models (Diffusion MLLMs) have recently demonstrated impressive non-autoregressive generative capabilities across vision-and-language tasks. However, Diffusion MLLMs exhibit substantially slower inference than autoregressive models: Each denoising step employs full bidirectional self-attention over the entire sequence, resulting in cubic decoding complexity that becomes computationally impractical with thousands of visual tokens. To address this challenge, we propose D$^{3}$ToM, a Decider-guided dynamic token merging method that dynamically merges redundant visual tokens at different denoising steps to accelerate inference in Diffusion MLLMs. At each denoising step, D$^{3}$ToM uses decider tokens-the tokens generated in the previous denoising step-to build an importance map over all visual tokens. Then it maintains a proportion of the most salient tokens and merges the remainder through similarity-based aggregation. This plug-and-play module integrates into a single transformer layer, physically shortening the visual token sequence for all subsequent layers without altering model parameters. Moreover, D$^{3}$ToM employs a merge ratio that dynamically varies with each denoising step, aligns with the native decoding process of Diffusion MLLMs, achieving superior performance under equivalent computational budgets. Extensive experiments show that D$^{3}$ToM accelerates inference while preserving competitive performance. The code is released at https://github.com/bcmi/D3ToM-Diffusion-MLLM.
- Abstract(参考訳): 拡散に基づく多モード多言語モデル(Diffusion MLLMs)は近年,視覚・言語タスク間での非自己回帰的生成能力を示す。
しかし、拡散MLLMは自己回帰モデルよりもかなり遅い推論を示す: 各デノベーションステップはシーケンス全体に対して完全な双方向の自己アテンションを採用し、結果として数千の視覚トークンで計算的に非現実的になる3乗復号複雑性をもたらす。
この課題に対処するため,D$^{3}$ToMを提案する。Diffusion MLLMにおける推論を高速化するために,異なるデノナイズステップで冗長な視覚トークンを動的にマージするデシダ誘導動的トークンマージ手法である。
各denoisingステップでは、D$^{3}$ToMは決定トークン(以前のdenoisingステップで生成されたトークン)を使用して、すべてのビジュアルトークンに重要なマップを構築する。
そして、最も健全なトークンの比率を維持し、類似性に基づくアグリゲーションを通じて残りのトークンをマージする。
このプラグアンドプレイモジュールは単一のトランスフォーマー層に統合され、モデルパラメータを変更することなく、後のすべてのレイヤの視覚トークンシーケンスを物理的に短縮する。
さらに、D$^{3}$ToMは、各デノナイズステップに動的に変化するマージ比を採用し、Diffusion MLLMのネイティブデコードプロセスと整合し、等価な計算予算下で優れた性能を達成する。
D$^{3}$ToMは競合性能を維持しながら推論を加速する。
コードはhttps://github.com/bcmi/D3ToM-Diffusion-MLLMで公開されている。
関連論文リスト
- $\mathcal{V}isi\mathcal{P}runer$: Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs [26.779915891040236]
我々は,LLaVA-v1.5 7B上での視線関連注意計算の最大99%,FLOPの最大53.9%を削減できるトレーニングフリープルーニングフレームワークであるemphVisiPrunerを提案する。
さらに、モデルアーキテクチャと本質的なレイヤワイド処理ダイナミクスを整合させることにより、効率的なMLLMのトレーニングのための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2025-10-20T06:40:17Z) - Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - ST$^3$: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming [14.937905258757635]
$textbfST3$は、再トレーニングせずにMLLM推論を高速化するように設計されたフレームワークである。
$textbfST3$は、既存のトレーニング済みMLLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-12-28T10:17:29Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。