論文の概要: Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding
- arxiv url: http://arxiv.org/abs/2505.16990v1
- Date: Thu, 22 May 2025 17:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.536059
- Title: Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding
- Title(参考訳): Dimple: 並列デコード付き離散拡散多モード大言語モデル
- Authors: Runpeng Yu, Xinyin Ma, Xinchao Wang,
- Abstract要約: Dimple, the first Discrete Multimodal Large Language Model (DMLLM)を提案する。
我々は,初期自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい訓練パラダイムを設計する。
Dimple-7BはLLaVA-を3.9%上回り、DMLLMは自己回帰モデルに匹敵する性能を達成できることを示した。
- 参考スコア(独自算出の注目度): 53.82301522384719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose Dimple, the first Discrete Diffusion Multimodal Large Language Model (DMLLM). We observe that training with a purely discrete diffusion approach leads to significant training instability, suboptimal performance, and severe length bias issues. To address these challenges, we design a novel training paradigm that combines an initial autoregressive phase with a subsequent diffusion phase. This approach yields the Dimple-7B model, trained on the same dataset and using a similar training pipeline as LLaVA-NEXT. Dimple-7B ultimately surpasses LLaVA-NEXT in performance by 3.9%, demonstrating that DMLLM can achieve performance comparable to that of autoregressive models. To improve inference efficiency, we propose a decoding strategy termed confident decoding, which dynamically adjusts the number of tokens generated at each step, significantly reducing the number of generation iterations. In autoregressive models, the number of forward iterations during generation equals the response length. With confident decoding, however, the number of iterations needed by Dimple is even only $\frac{\text{response length}}{3}$. We also re-implement the prefilling technique in autoregressive models and demonstrate that it does not significantly impact performance on most benchmark evaluations, while offering a speedup of 1.5x to 7x. Additionally, we explore Dimple's capability to precisely control its response using structure priors. These priors enable structured responses in a manner distinct from instruction-based or chain-of-thought prompting, and allow fine-grained control over response format and length, which is difficult to achieve in autoregressive models. Overall, this work validates the feasibility and advantages of DMLLM and enhances its inference efficiency and controllability. Code and models are available at https://github.com/yu-rp/Dimple.
- Abstract(参考訳): 本研究では,最初の離散拡散多モード言語モデル(DMLLM)であるDimpleを提案する。
純粋に離散的な拡散アプローチによるトレーニングは、トレーニング不安定性、準最適性能、および重大長偏差問題を引き起こす。
これらの課題に対処するために、初期自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい訓練パラダイムを設計する。
このアプローチは、同じデータセットでトレーニングされ、LLaVA-NEXTと同じようなトレーニングパイプラインを使用するDimple-7Bモデルを生成する。
Dimple-7Bは最終的にLLaVA-NEXTを3.9%上回り、DMLLMは自己回帰モデルに匹敵する性能を達成できることを示した。
推論効率を向上させるために,各ステップで生成されるトークンの数を動的に調整し,生成回数を大幅に削減する自信復号法を提案する。
自己回帰モデルでは、生成中の前方反復回数は応答長と等しい。
しかし、自信のある復号法では、Dimple が必要とする反復数は $\frac{\text{response length}}{3}$ である。
また、自動回帰モデルでプリフィル手法を再実装し、1.5倍から7倍のスピードアップを提供しながら、ほとんどのベンチマーク評価において性能に大きく影響しないことを示した。
さらに、構造先行値を用いて応答を正確に制御するDimpleの機能についても検討する。
これらの先行は、命令ベースやチェーン・オブ・シークレットのプロンプトとは異なる方法で構造化された応答を可能にし、自動回帰モデルでは達成が難しい応答形式と長さのきめ細かい制御を可能にする。
全体として、本研究はDMLLMの有効性と利点を検証し、推論効率と制御性を高める。
コードとモデルはhttps://github.com/yu-rp/Dimple.comで入手できる。
関連論文リスト
- Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies [10.971976066073442]
投機的復号法(SD法)は、単一の目標フォワードパスを使用して複数のトークンを生成することにより、実質的な効率向上をもたらす。
既存のSDアプローチでは、ドラフトラとターゲットモデルは同じ語彙を共有する必要があるため、ドラフトラのプールが制限される。
この共有語彙制約を除去する3つの新しいSD手法を提案する。
論文 参考訳(メタデータ) (2025-01-31T19:13:58Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding [2.642212767247493]
適応的なN-gram並列デコーディング(ANPD)を導入し,複数のトークンを同時に生成することで推論を高速化する。
ANPDは、処理速度を向上しながら、元の出力の完全性を維持する。
実験では、LLaMAのようなモデルとその微調整されたモデルが3.67倍の速度向上を示した。
論文 参考訳(メタデータ) (2024-04-10T16:11:09Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。