論文の概要: CreditDecoding: Accelerating Parallel Decoding in Diffusion Large Language Models with Trace Credits
- arxiv url: http://arxiv.org/abs/2510.06133v1
- Date: Tue, 07 Oct 2025 17:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.372927
- Title: CreditDecoding: Accelerating Parallel Decoding in Diffusion Large Language Models with Trace Credits
- Title(参考訳): CreditDecoding: トレースクレジットを持つ拡散型大規模言語モデルにおける並列デコーディングの高速化
- Authors: Kangyu Wang, Zhiyun Jiang, Haibo Feng, Weijia Zhao, Lin Liu, Jianguo Li, Zhenzhong Lan, Weiyao Lin,
- Abstract要約: CreditDecodingはトレーニング不要の並列デコーディングアルゴリズムで、正確だが不確実なトークンの信頼収束を加速する。
8つのベンチマークでは、CreditDecodingはLLaDA-8B-Instructよりも5.48倍の高速化と0.48のパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 37.06886078519443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models (dLLMs) generate text through iterative denoising steps, achieving parallel decoding by denoising only high-confidence positions at each step. However, existing approaches often repetitively remask tokens due to initially low confidence scores, leading to redundant iterations and limiting overall acceleration. Through the analysis of dLLM decoding traces, we observe that the model often determines the final prediction for a token several steps before the decoding step. To leverage this historical information and avoid redundant steps, we introduce the concept of Trace Credit, which quantifies each token's convergence potential by accumulating historical logits. Furthermore, we propose CreditDecoding, a training-free parallel decoding algorithm that accelerates the confidence convergence of correct but underconfident tokens by fusing current logits with Trace Credit. This process significantly reduces redundant iterations and enhances decoding robustness. On eight benchmarks, CreditDecoding achieves a 5.48 times speedup and a 0.48 performance improvement over LLaDA-8B-Instruct, and a 4.11 times speedup with a 0.15 performance improvement over LLaDA-MoE-Instruct. Importantly, CreditDecoding scales effectively to long sequences and is orthogonal to mainstream inference optimizations, making it a readily integrable and versatile solution.
- Abstract(参考訳): 拡散大言語モデル (dLLMs) は反復的復号化ステップを通じてテキストを生成し、各ステップで高信頼位置のみを復号化することで並列復号化を実現する。
しかしながら、既存のアプローチは、最初に信頼性スコアが低いためにトークンを繰り返し再マスクし、冗長なイテレーションと全体的なアクセラレーションを制限します。
我々は,dLLMデコードトレースの解析を通じて,デコードステップの何段階か前に,トークンの最終的な予測がしばしば決定されることを観察した。
この履歴情報を活用して冗長なステップを回避するために,過去のロジットを蓄積して各トークンの収束ポテンシャルを定量化するトレースクレジットの概念を導入する。
さらに,学習不要な並列復号アルゴリズムであるCreditDecodingを提案する。
このプロセスは冗長な反復を著しく減らし、復号性を高める。
8つのベンチマークでは、CreditDecodingはLLaDA-8B-Instructよりも5.48倍、パフォーマンスは0.11倍、パフォーマンスはLLaDA-MoE-Instructより0.15倍向上した。
重要なことは、CreditDecodingは長いシーケンスに効果的にスケールし、メインストリームの推論最適化に直交しているため、容易に統合可能で汎用的なソリューションである。
関連論文リスト
- Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes [10.877713536966601]
Longestahead Prefix(LSP)スケジューラは、モノリシックプレフィックスの吸収に基づく、トレーニング不要でモデルに依存しない推論パラダイムである。
LSPは1つのフォワードパスを介してトークンの安定性を評価し、安定な予測の連続した左整列ブロックを動的に識別する。
原子のコミットメントの前に、言語や構造的受容の境界を画定する。
論文 参考訳(メタデータ) (2026-03-05T18:25:26Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。
RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-30T13:16:32Z) - Consistency Flow Model Achieves One-step Denoising Error Correction Codes [28.89866643527586]
高忠実度ワンステップ復号のための誤り補正整合流れモデル(ECCFM)を提案する。
ECCFMは自己回帰や拡散に基づくベースラインよりもビットエラー率(BER)が低い。
拡散デコーダよりも30倍から100倍高速な推論速度を提供する。
論文 参考訳(メタデータ) (2025-12-01T08:07:51Z) - Accelerating Diffusion LLM Inference via Local Determinism Propagation [27.751279909685604]
LocalLeapは、トレーニング不要の適応並列デコード戦略である。
6.94$times$スループットの改善を実現し、デコード手順を元の要件の14.2%に短縮する。
論文 参考訳(メタデータ) (2025-10-08T14:39:34Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。
補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。
AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文 参考訳(メタデータ) (2025-06-04T08:32:30Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。