論文の概要: PSD: Pushing the Pareto Frontier of Diffusion LLMs via Parallel Speculative Decoding
- arxiv url: http://arxiv.org/abs/2605.15609v1
- Date: Fri, 15 May 2026 04:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.172094
- Title: PSD: Pushing the Pareto Frontier of Diffusion LLMs via Parallel Speculative Decoding
- Title(参考訳): PSD:並列投機デコードによる拡散LDMのパレートフロンティアのプッシュ
- Authors: Shengyin Sun, Yiming Li, Renxi Liu, Xinqi Li, Hui-Ling Zhen, Weizhe Lin, Chen Chen, Xianzhi Yu, Mingxuan Yuan, Chen Ma,
- Abstract要約: 拡散大言語モデル (dLLMs) は、マスク付きトークンシーケンスを反復的に記述することでテキストを生成する。
両軸に沿って推論を共同で改善するトレーニングフリーフレームワークであるParallel Speculative Decoding (PSD)を提案する。
- 参考スコア(独自算出の注目度): 32.667256256847246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (dLLMs) generate text by iteratively denoising masked token sequences. Although dLLMs can predict all masked positions in parallel within each step, the large number of denoising iterations still makes inference expensive. This cost can be reduced spatially by unmasking multiple tokens per step, or temporally by collapsing multiple denoising steps into one verification call. We propose Parallel Speculative Decoding (PSD), a training-free framework that jointly improves inference along both axes. Using the confidence scores from a single forward pass, PSD selects positions to unmask via a configurable, adaptive unmasking policy and constructs multi-depth speculative drafts without extra model calls. A final batched verification pass then applies hierarchical acceptance, keeping the deepest draft that remains consistent with the updated predictions. Experiments on three dLLMs across reasoning and code generation tasks show that PSD achieves favorable trade-offs between inference efficiency and generation quality, reaching up to $5.5\times$ tokens per forward pass with accuracy comparable to greedy decoding.
- Abstract(参考訳): 拡散大言語モデル (dLLMs) は、マスク付きトークンシーケンスを反復的に記述することでテキストを生成する。
dLLMは各ステップ内ですべてのマスクされた位置を並列に予測できるが、多くのデノナイジングイテレーションは推論を高価にしている。
このコストは、ステップ毎に複数のトークンをアンマキングしたり、複数のデノナイジングステップを1つの検証コールにラップすることで、空間的に低減することができる。
両軸に沿って推論を共同で改善するトレーニングフリーフレームワークであるParallel Speculative Decoding (PSD)を提案する。
単一のフォワードパスからの信頼スコアを使用して、PSDは設定可能で適応的なアンマスクポリシーを通じてアンマスクする位置を選択し、余分なモデルコールなしで多深さの投機的ドラフトを構築する。
そして、最終バッチ検証パスが階層的受け入れを適用し、更新された予測と一致した最も深いドラフトを維持します。
推論タスクとコード生成タスクの3つのdLLMの実験では、PSDは推論効率と生成品質のトレードオフを良好に達成し、greedy復号に匹敵する精度で5.5\times$トークンに到達した。
関連論文リスト
- DMax: Aggressive Parallel Decoding for dLLMs [77.24184219948337]
効率的な拡散言語モデル(dLLM)のための新しいパラダイムであるDMaxを提案する。
並列デコードにおけるエラーの蓄積を軽減し、生成品質を維持しながらアグレッシブデコードを可能にする。
当社のアプローチの核心は、マスクと均一なdLLMを効率的に統合する新しいトレーニング戦略であるOn-Policy Uniform Trainingである。
論文 参考訳(メタデータ) (2026-04-09T14:35:42Z) - Dependency-Guided Parallel Decoding in Discrete Diffusion Language Models [21.699371484195865]
我々は,dLLMの最終隠れ状態にアタッチする軽量依存予測器DEMASKを提案する。
実証的に、DEMASKはDream-7Bで1.7-2.2$times$ Speedupを達成し、信頼性ベースのベースラインやKLベースのベースラインと比較して精度が向上した。
論文 参考訳(メタデータ) (2026-04-02T22:21:24Z) - Dependency-Aware Parallel Decoding via Attention for Diffusion LLMs [8.800270601225668]
拡散LDMの並列復号化は,各復号化ステップがトークン単位の周縁分布のみを提供するため困難である。
本稿では、自己アテンションを用いて条件依存グラフを誘導する簡易な訓練不要な復号法である依存性認識並列復号法(DAPD)を提案する。
論文 参考訳(メタデータ) (2026-03-13T13:52:02Z) - Adaptation to Intrinsic Dependence in Diffusion Language Models [5.185131234265025]
拡散言語モデル(DLM)は自己回帰(AR)アプローチに代わる有望な代替手段として登場した。
対象データ分布の(未知の)依存構造に適応するDLMの分布に依存しないアンマスキングスケジュールを提案する。
この結果は, 先行収束理論を著しく改善し, 低複雑さ分布に対する相当なサンプリング加速を得た。
論文 参考訳(メタデータ) (2026-02-23T18:41:34Z) - Diffusion Language Models are Provably Optimal Parallel Samplers [15.981424915336001]
拡散言語モデル (DLM) は自己回帰モデルに代わる有望な代替品として登場した。
DLMをチェーン・オブ・シークエンスで拡張することで,任意の並列サンプリングアルゴリズムを最適なステップ数でシミュレートできることを示す。
論文 参考訳(メタデータ) (2025-12-31T18:03:05Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z) - Plan for Speed: Dilated Scheduling for Masked Diffusion Language Models [13.575063025878208]
マスク付き拡散言語モデルは高速で非自己回帰的なテキスト生成を約束する。
モデルの信頼性に基づいてアンマスクするトークンを選択する既存のサンプルは、複数の位置を並列にアンマスクする際のインタラクションを無視する。
DUS(Dilated Unmasking Scheduler)は、列位置を非隣接拡張群に分割し、それらを並列に分割する推論のみのプランナーフリーな手法である。
論文 参考訳(メタデータ) (2025-06-23T18:49:23Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。