論文の概要: ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2510.04767v1
- Date: Mon, 06 Oct 2025 12:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.861074
- Title: ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs
- Title(参考訳): ParallelBench: 拡散LDMにおける並列デコーディングのトレードオフを理解する
- Authors: Wonjun Kang, Kevin Galim, Seunghyuk Oh, Minjae Lee, Yuchen Zeng, Shuibai Zhang, Coleman Hooper, Yuezhou Hu, Hyung Il Koo, Nam Ik Cho, Kangwook Lee,
- Abstract要約: 拡散LDMは、並列復号による推論を劇的に加速する可能性への関心が高まっている。
既存の作業は、これらの固有の課題を概ね見落としており、標準ベンチマークによる評価は、並列復号による品質劣化を捉えるのに十分ではない。
そこで我々は,DLLMに特化して設計された最初のベンチマークであるParallelBenchを提案する。
我々の発見は、現在のスピード品質のトレードオフを克服できる革新的な復号法の必要性を強調している。
- 参考スコア(独自算出の注目度): 31.387806058620683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While most autoregressive LLMs are constrained to one-by-one decoding, diffusion LLMs (dLLMs) have attracted growing interest for their potential to dramatically accelerate inference through parallel decoding. Despite this promise, the conditional independence assumption in dLLMs causes parallel decoding to ignore token dependencies, inevitably degrading generation quality when these dependencies are strong. However, existing works largely overlook these inherent challenges, and evaluations on standard benchmarks (e.g., math and coding) are not sufficient to capture the quality degradation caused by parallel decoding. To address this gap, we first provide an information-theoretic analysis of parallel decoding. We then conduct case studies on analytically tractable synthetic list operations from both data distribution and decoding strategy perspectives, offering quantitative insights that highlight the fundamental limitations of parallel decoding. Building on these insights, we propose ParallelBench, the first benchmark specifically designed for dLLMs, featuring realistic tasks that are trivial for humans and autoregressive LLMs yet exceptionally challenging for dLLMs under parallel decoding. Using ParallelBench, we systematically analyze both dLLMs and autoregressive LLMs, revealing that: (i) dLLMs under parallel decoding can suffer dramatic quality degradation in real-world scenarios, and (ii) current parallel decoding strategies struggle to adapt their degree of parallelism based on task difficulty, thus failing to achieve meaningful speedup without compromising quality. Our findings underscore the pressing need for innovative decoding methods that can overcome the current speed-quality trade-off. We release our benchmark to help accelerate the development of truly efficient dLLMs.
- Abstract(参考訳): ほとんどの自己回帰LDMは1対1の復号化に制約されているが、拡散LDM(dLLM)は並列復号化によって推論を劇的に加速する可能性への関心が高まっている。
この約束にもかかわらず、dLLMsの条件付き独立仮定は、並列デコードによってトークンの依存関係を無視し、これらの依存関係が強い場合には、必然的に生成品質を低下させる。
しかし、既存の研究はこれらの固有の課題を概ね見落としており、標準的なベンチマーク(例えば、数学やコーディング)による評価は、並列デコーディングによる品質劣化を捉えるのに十分ではない。
このギャップに対処するため、我々はまず並列デコーディングの情報理論解析を行う。
次に、データ分散と復号化戦略の観点から解析的に抽出可能な合成リスト演算のケーススタディを行い、並列復号化の基本的限界を強調する定量的な洞察を提供する。
これらの知見に基づいてParallelBenchを提案する。これは、DLLM用に特別に設計された最初のベンチマークであり、人間にはやさしい現実的なタスクと、並列デコーディング下でのdLLMでは例外的に難しい自動回帰LDMを特徴とする。
ParallelBenchを用いて、dLLMと自己回帰LDMの両方を系統的に解析し、次のように明らかにした。
(i)dLLMの並列復号化は実世界のシナリオにおいて劇的な品質劣化を招きかねない。
(II)現在の並列復号戦略はタスクの難易度に基づいて並列化の度合いを順応するのに苦労し、品質を損なうことなく有意義なスピードアップを達成できない。
我々の発見は、現在のスピード品質のトレードオフを克服できる革新的な復号法の必要性を強調している。
私たちは、真に効率的なdLLMの開発を加速するために、ベンチマークをリリースします。
関連論文リスト
- dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。
本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。
我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文 参考訳(メタデータ) (2025-08-12T12:35:55Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。