論文の概要: D-PACE: Dynamic Position-Aware Cross-Entropy for Parallel Speculative Drafting
- arxiv url: http://arxiv.org/abs/2605.18810v1
- Date: Tue, 12 May 2026 06:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.351005
- Title: D-PACE: Dynamic Position-Aware Cross-Entropy for Parallel Speculative Drafting
- Title(参考訳): D-PACE:並列投機描画のための動的位置認識型クロスエントロピー
- Authors: Tianyu Wu, Yu Yao, Zhenting Qi, Han Zheng, Zhuohan Wang, Haoran Ma, Lawrence Liao, Himabindu Lakkaraju, Ju Li, Yilun Du,
- Abstract要約: 投機的復号化は、小さなドラフト作成者がより大きなターゲットモデルが並列に検証するトークンを提案することによって推論を加速する。
最近の拡散ベースの並列ドラフトア(DFlashなど)は、1つの前方パスで完全なB-tokenブロックを予測し、より深いドラフトアとより長い許容ブロックを可能にする。
各位置の重みと、その対数確率の寄与とを一致させて、期待されるドラフト長の相違可能なサロゲートから、位置毎のトレーニングウェイトを導出する。
6つのベンチマークと2つのQwen3-4Bドラフト深度、2つの復号温度、2つの追加ターゲットモデル、D-PACEは一貫してウォールクロックのスピードアップと平均の両方を改善している。
- 参考スコア(独自算出の注目度): 59.204113363599994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates LLM inference by having a small drafter propose tokens that a larger target model verifies in parallel. Recent diffusion-based parallel drafters such as DFlash predict the full B-token block in one forward pass, enabling deeper drafters and longer accepted blocks. However, existing multi-token drafter objectives often use fixed position-dependent weighting schedules, such as head-dependent weights or block-position decays, which do not adapt as the positions limiting acceptance change during training. To address this, we derive per-position training weights from a differentiable surrogate of expected accepted draft length, matching the weight of each position to its log-probability gradient contribution. The resulting loss, D-PACE (Dynamic Position-Aware Cross-Entropy), shifts training signal toward positions that currently limit acceptance as the drafter improves. Across six benchmarks, two Qwen3-4B draft depths, two decoding temperatures, and two additional target models, D-PACE consistently improves both wall-clock speedup and average emitted length, with 2.3\% measured training-time overhead and no changes to the drafter architecture or inference procedure.
- Abstract(参考訳): 投機的復号化は、小さなドラフト作成者がより大きなターゲットモデルが並列に検証するトークンを提案することによって、LCM推論を加速させる。
最近の拡散ベースの並列ドラフトア(DFlashなど)は、1つの前方パスで完全なB-tokenブロックを予測し、より深いドラフトアとより長い許容ブロックを可能にする。
しかし、既存の多目的起案者は、ヘッド依存重み付けやブロックポジション崩壊のような固定位置依存重み付けスケジュールを使うことが多く、これは訓練中の受入変化を制限する位置として適応しない。
そこで本研究では,各位置の重みと対数確率勾配の寄与とを一致させて,期待されるドラフト長の相違可能なサロゲートから,位置毎のトレーニングウェイトを導出する。
結果として得られた損失であるD-PACE(Dynamic Position-Aware Cross-Entropy)は、トレーニング信号を、ドラフト作成者が改善するにつれて、現在受け入れを制限する位置にシフトする。
6つのベンチマーク、2つのQwen3-4Bドラフト深度、2つの復号温度、2つの追加のターゲットモデル、D-PACEは壁面のスピードアップと平均出力長の両方を継続的に改善し、2.3\%のトレーニング時間オーバーヘッドを計測し、ドラフトアアーキテクチャや推論手順の変更はない。
関連論文リスト
- FlexDraft: Flexible Speculative Decoding via Attention Tuning and Bonus-Guided Calibration [21.05266483397106]
FlexDraftは投機的デコードフレームワークで、3つの重要な設計を通じて様々なバッチサイズに対応します。
Attention Tuningは、マスクトークン上の最後の数層の注意プロジェクタのみをチューニングすることで、ブロック拡散のドラフトを可能にする。
Bonus-guidedは、解決されたボーナストークンに軽量な条件を付け、ドラフトロジットを校正する。
論文 参考訳(メタデータ) (2026-05-19T15:48:16Z) - Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation [27.749196490846916]
PAD-Recは2つの補完信号でドラフトモデルを増強する軽量モジュールである。
アイテム位置埋め込みは、トークン内のスロットを明示的にエンコードする。
ステップ位置埋め込みはドラフトステップをエンコードし、モデルが深さ依存の不確実性に適応できるようにする。
論文 参考訳(メタデータ) (2026-04-30T11:37:08Z) - SpecBound: Adaptive Bounded Self-Speculation with Layer-wise Confidence Calibration [13.454534256560558]
投機的復号化は、大規模言語モデルにおける自己回帰推論を加速するための有望なアプローチとして現れている。
そこで本稿では, 早期終了判定において, 温度アニールによる急激な信頼を抑える, 新たなセルフドラフトフレームワークを提案する。
提案手法は,従来の自己回帰復号法に比べて最大2.33倍の高速化を実現する。
論文 参考訳(メタデータ) (2026-04-14T03:47:04Z) - Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning [67.88087883391475]
本稿では,各ドラフト・アンド・検証サイクルのスループットを直接最適化する新しい手法であるLearning to Draftを紹介する。
LTDは2.24倍から4.32倍までのスピードアップ比を達成し、最先端のイーグル3よりも36.4%向上した。
論文 参考訳(メタデータ) (2026-03-02T09:17:48Z) - PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length [21.738896310075678]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論過程を高速化する強力な手法である
軽量でトレーニング可能な事前検証レイヤを用いて,ドラフト長を動的に制御する新しいアプローチであるPacerを提案する。
以上の結果から,Pacerは自己回帰復号化よりも最大2.66倍の高速化を実現し,一貫した投機復号化を実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-01T15:12:38Z) - Beat the long tail: Distribution-Aware Speculative Decoding for RL Training [75.75462952580796]
モデル出力を変更することなくRLロールアウトを高速化する分散Aware Speculativeデコーディングフレームワークを提案する。
数学とコード推論タスクの実験は、DASが同一のトレーニング曲線を保ちながらロールアウト時間を最大50%短縮することを示している。
論文 参考訳(メタデータ) (2025-11-17T19:02:12Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。