論文の概要: Accelerating Diffusion LLM Inference via Local Determinism Propagation
- arxiv url: http://arxiv.org/abs/2510.07081v1
- Date: Wed, 08 Oct 2025 14:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.56514
- Title: Accelerating Diffusion LLM Inference via Local Determinism Propagation
- Title(参考訳): 局所決定性伝播による拡散LDM推論の高速化
- Authors: Fanheng Kong, Jingyuan Zhang, Yahui Liu, Zirui Wu, Yu Tian, Victoria W., Guorui Zhou,
- Abstract要約: LocalLeapは、トレーニング不要の適応並列デコード戦略である。
6.94$times$スループットの改善を実現し、デコード手順を元の要件の14.2%に短縮する。
- 参考スコア(独自算出の注目度): 27.751279909685604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models (dLLMs) represent a significant advancement in text generation, offering parallel token decoding capabilities. However, existing open-source implementations suffer from quality-speed trade-offs that impede their practical deployment. Conservative sampling strategies typically decode only the most confident token per step to ensure quality (i.e., greedy decoding), at the cost of inference efficiency due to repeated redundant refinement iterations--a phenomenon we term delayed decoding. Through systematic analysis of dLLM decoding dynamics, we characterize this delayed decoding behavior and propose a training-free adaptive parallel decoding strategy, named LocalLeap, to address these inefficiencies. LocalLeap is built on two fundamental empirical principles: local determinism propagation centered on high-confidence anchors and progressive spatial consistency decay. By applying these principles, LocalLeap identifies anchors and performs localized relaxed parallel decoding within bounded neighborhoods, achieving substantial inference step reduction through early commitment of already-determined tokens without compromising output quality. Comprehensive evaluation on various benchmarks demonstrates that LocalLeap achieves 6.94$\times$ throughput improvements and reduces decoding steps to just 14.2\% of the original requirement, achieving these gains with negligible performance impact. The source codes are available at: https://github.com/friedrichor/LocalLeap.
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、並列トークン復号機能を備えたテキスト生成の大幅な進歩を表している。
しかし、既存のオープンソース実装は、彼らの実践的なデプロイメントを妨げる品質と速度のトレードオフに悩まされている。
保守的なサンプリング戦略は通常、1ステップ当たりの最も確実なトークンのみをデコードして品質を確保する(すなわち、グレディ復号)。
dLLMデコードダイナミクスの体系的解析を通じて、この遅延復号動作を特徴付けるとともに、これらの非効率に対処する訓練不要適応並列復号戦略であるLocalLeapを提案する。
LocalLeapは2つの基本的な経験的原理に基づいて構築されている。
これらの原則を適用することで、LocalLeapはアンカーを特定し、境界付けられた地区内で局所的に緩和された並列デコードを実行する。
様々なベンチマークに関する総合的な評価は、LocalLeapがスループットの改善を6.94$\times$達成し、デコード手順を元の要件の14.2\%に減らし、パフォーマンスへの影響を無視できる。
ソースコードは、https://github.com/friedrichor/LocalLeap.comで入手できる。
関連論文リスト
- R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - DecoRTL: A Run-time Decoding Framework for RTL Code Generation with LLMs [0.0]
大規模言語モデル (LLM) は構造的あいまいさや意味的複雑さの領域において信頼性が低いことを示す。
本稿では,新しい実行時デコーディング戦略であるDecoRTLを紹介する。
私たちのアプローチは、追加のモデル微調整を必要とせずに、完全に推論時に動作します。
論文 参考訳(メタデータ) (2025-07-03T01:17:44Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - CLLMs: Consistency Large Language Models [18.17892007267927]
Jacobiデコーディングは、従来の自己回帰(AR)デコーディングと比較して、ほとんどスピードアップしない。
ヤコビ軌道上の任意の状態から固定点への高速収束を実現するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2024-02-28T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。