論文の概要: Performance-Driven Policy Optimization for Speculative Decoding with Adaptive Windowing
- arxiv url: http://arxiv.org/abs/2605.14978v2
- Date: Fri, 15 May 2026 02:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.115344
- Title: Performance-Driven Policy Optimization for Speculative Decoding with Adaptive Windowing
- Title(参考訳): 適応ウィンドウを用いた投機的復号化のための性能駆動型ポリシー最適化
- Authors: Jie Jiang, Xing Sun, Ruotian Chen, Jianan Su, Kaixin Shen,
- Abstract要約: 投機的効率は、しばしば難解な位置によってボトルネックされる。
ほとんどの学習ベースのドラフトラは、まだトークンレベルの管理対象に最適化されている。
本稿では,トークンレベルの模倣からウィンドウレベルの最適化へ移行する拡張学習フレームワークPPOWを提案する。
- 参考スコア(独自算出の注目度): 14.853472940422199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding accelerates LLM inference by having a lightweight draft model propose speculative windows of candidate tokens for parallel verification by a larger target model. In practice, speculative efficiency is often bottlenecked by hard-to-draft positions, where an early mismatch truncates the accepted prefix and invalidates the rest of the speculative window. Most learning-based drafters are still optimized with token-level supervised objectives, even though speculative utility is inherently window-level and prefix-sensitive. We propose PPOW (Performance-Driven Policy Optimization with Adaptive Windowing), a reinforcement learning framework that shifts drafter optimization from token-level imitation to window-level optimization. PPOW combines a Cost-Aware Speedup Reward, a Distribution-Based Proximity Reward, and Adaptive Divergence-Aware Windowing, which prioritizes informative windows with high confidence-weighted draft-target divergence. PPOW achieves average acceptance lengths of 6.29-6.52 and speedups of 3.39-4.36$\times$ across multiple model families and benchmarks under a unified decoding protocol. These results show that performance-driven window-level optimization is a practical approach to improving speculative decoding efficiency.
- Abstract(参考訳): 投機的復号化は、より広いターゲットモデルによる並列検証のための候補トークンの投機的ウィンドウを軽量なドラフトモデルで提案することにより、LCM推論を加速させる。
実際には、投機的効率はしばしば、初期ミスマッチが受け入れられたプレフィックスを切断し、投機的ウィンドウの残りの部分を無効にする、ハード・ツー・ドラフトのポジションによってボトルネックとなる。
ほとんどの学習ベースのドラフトラは、投機的ユーティリティは本質的にウィンドウレベルでプレフィックスに敏感であるにもかかわらず、トークンレベルの管理対象に最適化されている。
本稿では,トークンレベルの模倣からウィンドウレベルの最適化に移行する強化学習フレームワークであるPPOW(Performance-Driven Policy Optimization with Adaptive Windowing)を提案する。
PPOWは、分散ベースのプロキシ・リワードであるコスト・アウェア・スピードアップ・リワードと、信頼性の高いドラフト・ターゲットの分岐を優先したアダプティブ・ディバージェンス・アウェア・ウィンドウニングを組み合わせたものである。
PPOWは平均受け入れ長6.29-6.52、スピードアップ3.39-4.36$\times$を複数のモデルファミリとベンチマークで実現している。
これらの結果から,性能駆動型ウィンドウレベル最適化は投機的復号化効率向上のための実用的な手法であることが示された。
関連論文リスト
- Adaptive Prompt Structure Factorization: A Framework for Self-Discovering and Optimizing Compositional Prompt Programs [18.579725648410815]
APIのみのフレームワークであるAdaptive Prompt Structure Factorization (aPSF)を提案する(prompt-in/text-out; モデル内部へのアクセスなし)。
aPSFはアーキテクトモデルを使用して、タスク固有のプロンプト構造を意味要因として発見する。
aPSFは、原則認識を含む強力なベースラインを上回り、平均で最大2.16ポイントの精度を向上させる。
論文 参考訳(メタデータ) (2026-04-08T05:25:40Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - PerfCoder: Large Language Models for Interpretable Code Performance Optimization [15.79612555952707]
PerfCoderは、ソースコードからパフォーマンス向上したコードを生成するために設計された、大規模な言語モデル(LLM)のファミリーである。
PerfCoderは、人間が読めるアノテーションで、現実世界の最適化トラジェクトリのキュレートされたコレクションに微調整されている。
PerfCoderは、実行時のスピードアップと効率的な最適化率の両方で、既存のモデルをすべて上回っている。
論文 参考訳(メタデータ) (2025-12-16T02:30:04Z) - Direct Behavior Optimization: Unlocking the Potential of Lightweight LLMs [9.085280547983091]
DeBoPはLwLLMの動作を直接最適化する自動最適化手法である。
現状のLLMが優れているが、LwLLMは一般的に性能が劣る7つの課題についてDeBoPを評価した。
DeBoPに最適化されたLwLLMは、ほとんどのタスクでGPT-3.5を超え、計算時間を約60%削減した。
論文 参考訳(メタデータ) (2025-06-06T02:40:42Z) - ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning [14.034412856423529]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合性において,その単純さと計算効率に注目されている。
最近の進歩はDPOをマルチモーダルシナリオに拡張し、高いパフォーマンスを実現している。
従来のDPOは、細かなセグメントの正しさを考慮せずに、二分選好の最適化、報酬、全応答のペナルティ化に依存している。
本稿では、より正確な選好最適化のために個々の文を評価する適応文レベルの選好最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-05-25T11:33:08Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。