論文の概要: Accelerating Diffusion LLM Inference via Local Determinism Propagation
- arxiv url: http://arxiv.org/abs/2510.07081v1
- Date: Wed, 08 Oct 2025 14:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.56514
- Title: Accelerating Diffusion LLM Inference via Local Determinism Propagation
- Title(参考訳): 局所決定性伝播による拡散LDM推論の高速化
- Authors: Fanheng Kong, Jingyuan Zhang, Yahui Liu, Zirui Wu, Yu Tian, Victoria W., Guorui Zhou,
- Abstract要約: LocalLeapは、トレーニング不要の適応並列デコード戦略である。
6.94$times$スループットの改善を実現し、デコード手順を元の要件の14.2%に短縮する。
- 参考スコア(独自算出の注目度): 27.751279909685604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models (dLLMs) represent a significant advancement in text generation, offering parallel token decoding capabilities. However, existing open-source implementations suffer from quality-speed trade-offs that impede their practical deployment. Conservative sampling strategies typically decode only the most confident token per step to ensure quality (i.e., greedy decoding), at the cost of inference efficiency due to repeated redundant refinement iterations--a phenomenon we term delayed decoding. Through systematic analysis of dLLM decoding dynamics, we characterize this delayed decoding behavior and propose a training-free adaptive parallel decoding strategy, named LocalLeap, to address these inefficiencies. LocalLeap is built on two fundamental empirical principles: local determinism propagation centered on high-confidence anchors and progressive spatial consistency decay. By applying these principles, LocalLeap identifies anchors and performs localized relaxed parallel decoding within bounded neighborhoods, achieving substantial inference step reduction through early commitment of already-determined tokens without compromising output quality. Comprehensive evaluation on various benchmarks demonstrates that LocalLeap achieves 6.94$\times$ throughput improvements and reduces decoding steps to just 14.2\% of the original requirement, achieving these gains with negligible performance impact. The source codes are available at: https://github.com/friedrichor/LocalLeap.
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、並列トークン復号機能を備えたテキスト生成の大幅な進歩を表している。
しかし、既存のオープンソース実装は、彼らの実践的なデプロイメントを妨げる品質と速度のトレードオフに悩まされている。
保守的なサンプリング戦略は通常、1ステップ当たりの最も確実なトークンのみをデコードして品質を確保する(すなわち、グレディ復号)。
dLLMデコードダイナミクスの体系的解析を通じて、この遅延復号動作を特徴付けるとともに、これらの非効率に対処する訓練不要適応並列復号戦略であるLocalLeapを提案する。
LocalLeapは2つの基本的な経験的原理に基づいて構築されている。
これらの原則を適用することで、LocalLeapはアンカーを特定し、境界付けられた地区内で局所的に緩和された並列デコードを実行する。
様々なベンチマークに関する総合的な評価は、LocalLeapがスループットの改善を6.94$\times$達成し、デコード手順を元の要件の14.2\%に減らし、パフォーマンスへの影響を無視できる。
ソースコードは、https://github.com/friedrichor/LocalLeap.comで入手できる。
関連論文リスト
- Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes [10.877713536966601]
Longestahead Prefix(LSP)スケジューラは、モノリシックプレフィックスの吸収に基づく、トレーニング不要でモデルに依存しない推論パラダイムである。
LSPは1つのフォワードパスを介してトークンの安定性を評価し、安定な予測の連続した左整列ブロックを動的に識別する。
原子のコミットメントの前に、言語や構造的受容の境界を画定する。
論文 参考訳(メタデータ) (2026-03-05T18:25:26Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - HIPPO: Accelerating Video Large Language Models Inference via Holistic-aware Parallel Speculative Decoding [48.55833840968632]
投機的復号化は、出力品質を犠牲にすることなくLSM推論を加速するための有望なアプローチとして登場した。
提案するHIPPOは,汎用的な並列投機復号化フレームワークである。
6つのベンチマークで4つのビデオLLMの実験では、HIPPOの有効性が示され、最大3.51倍のスピードアップが達成された。
論文 参考訳(メタデータ) (2026-01-13T07:02:43Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - From Bits to Rounds: Parallel Decoding with Exploration for Diffusion Language Models [19.97248408121574]
Diffusion Language Models (DLMs) は並列デコードにより高速な推論速度で同等の精度を提供する。
高信頼トークンは無視可能な情報を持ち、それらに厳密に依存することで、各デコードラウンドにおける効果的な進捗を制限する。
本研究では,情報スループットと復号効率を最大化する学習自由復号法であるExplore-Then-Exploit (ETE)を提案する。
論文 参考訳(メタデータ) (2025-11-26T06:38:37Z) - Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - DecoRTL: A Run-time Decoding Framework for RTL Code Generation with LLMs [0.0]
大規模言語モデル (LLM) は構造的あいまいさや意味的複雑さの領域において信頼性が低いことを示す。
本稿では,新しい実行時デコーディング戦略であるDecoRTLを紹介する。
私たちのアプローチは、追加のモデル微調整を必要とせずに、完全に推論時に動作します。
論文 参考訳(メタデータ) (2025-07-03T01:17:44Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - FastCoder: Accelerating Repository-level Code Generation via Efficient Retrieval and Verification [10.286072352686874]
我々は、コード生成用に特別に設計された推論アクセラレーションアプローチであるFastCoderを提案する。
FastCoderはマルチソースのデータストアを構築し、一般的な知識とプロジェクト固有の知識の両方へのアクセスを提供する。
リポジトリレベルとスタンドアロンのコード生成タスクにおける自動回帰デコードと比較して、最大2.53倍と2.54倍のスピードアップに達する。
論文 参考訳(メタデータ) (2025-02-24T13:30:30Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - CLLMs: Consistency Large Language Models [18.17892007267927]
Jacobiデコーディングは、従来の自己回帰(AR)デコーディングと比較して、ほとんどスピードアップしない。
ヤコビ軌道上の任意の状態から固定点への高速収束を実現するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2024-02-28T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。