論文の概要: LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding
- arxiv url: http://arxiv.org/abs/2602.23881v1
- Date: Fri, 27 Feb 2026 10:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.368858
- Title: LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding
- Title(参考訳): LK Losses: 投機的復号化のための直接受け入れ率最適化
- Authors: Alexander Samarin, Sergei Krutikov, Anton Shevtsov, Sergei Skvortsov, Filipp Fisin, Alexander Golubev,
- Abstract要約: 投機的復号化は自己回帰型大言語モデル(LLM)推論を加速させる。
標準トレーニングは、プロキシ目的としてKullback-Leibler(KL)の発散を最小限にする。
受入率を直接目標とする特別な訓練目標であるLK損失を提案する。
- 参考スコア(独自算出の注目度): 67.61563011564388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates autoregressive large language model (LLM) inference by using a lightweight draft model to propose candidate tokens that are then verified in parallel by the target model. The speedup is significantly determined by the acceptance rate, yet standard training minimizes Kullback-Leibler (KL) divergence as a proxy objective. While KL divergence and acceptance rate share the same global optimum, small draft models, having limited capacity, typically converge to suboptimal solutions where minimizing KL does not guarantee maximizing acceptance rate. To address this issue, we propose LK losses, special training objectives that directly target acceptance rate. Comprehensive experiments across four draft architectures and six target models, ranging from 8B to 685B parameters, demonstrate consistent improvements in acceptance metrics across all configurations compared to the standard KL-based training. We evaluate our approach on general, coding and math domains and report gains of up to 8-10% in average acceptance length. LK losses are easy to implement, introduce no computational overhead and can be directly integrated into any existing speculator training framework, making them a compelling alternative to the existing draft training objectives.
- Abstract(参考訳): 投機的復号化は、軽量なドラフトモデルを用いて自己回帰型大言語モデル(LLM)推論を加速し、ターゲットモデルによって並列に検証される候補トークンを提案する。
スピードアップは受入率によって決定されるが、標準トレーニングでは、KL(Kullback-Leibler)の発散をプロキシの目的として最小化している。
KLの発散と受入率は同じグローバルな最適値を共有するが、限られた容量を持つ小さなドラフトモデルは、KLの最小化が受容率の最大化を保証しない最適以下の解に収束するのが一般的である。
この問題に対処するため,受入率を直接目標とする特別訓練目標であるLK損失を提案する。
4つのドラフトアーキテクチャと8Bから685Bパラメータを含む6つのターゲットモデルにわたる総合的な実験は、標準のKLベースのトレーニングと比較して、すべての構成における受け入れメトリクスが一貫した改善を示している。
一般, コーディング, 数学領域に対する我々のアプローチを評価し, 平均受理長が最大8~10%まで向上したことを報告する。
LKの損失は実装が容易で、計算オーバーヘッドを伴わず、既存の投機的トレーニングフレームワークに直接統合できるため、既存のドラフトトレーニングの目的に対して魅力的な代替手段となる。
関連論文リスト
- Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。
理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文 参考訳(メタデータ) (2026-02-08T00:09:40Z) - Positive-Unlabeled Reinforcement Learning Distillation for On-Premise Small Models [130.8912476550625]
そこで本研究では, 現場での小型モデル展開のための正の無ラベル(PU)強化学習蒸留法を提案する。
本手法は,教師の好み最適化能力をブラックボックス世代から地元の訓練可能な学生に蒸留する。
実験により,本手法は低コストで一貫した強靭な性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T15:14:50Z) - Arbitrage: Efficient Reasoning via Advantage-Aware Speculation [71.45710345765528]
投機的復号化は、高速だが不正確なドラフトモデルを用いて推論を加速し、自動回帰的にトークンを提案する。
しかし、意味論的に等価なステップにおけるトークンミスマッチによる不要な拒絶のため、従来のトークンレベルの投機的デコーディングは、タスクの推論に苦労する。
提案するArbitrageは,ドラフトモデルとターゲットモデルとの相対的優位性に基づいて動的に生成をルーティングする,新しいステップレベルの投機生成フレームワークである。
論文 参考訳(メタデータ) (2025-12-04T17:50:53Z) - Training-Free Loosely Speculative Decoding: Accepting Semantically Correct Drafts Beyond Exact Match [21.810129153556044]
訓練不要な投機的復号法(FLy)は、厳密な検証基準を緩める新しい手法である。
FLyは目標モデルの精度の99%以上を維持し,平均2.81倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-28T08:23:30Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment [25.988070517700848]
自己回帰生成を高速化する手法として投機的復号法が提案されている。
GPT-4oのような強力なドラフトモデルであっても、人間のテキストは高い受け入れ率を達成できないことを示す。
私たちは、正しいが一致しない応答を認識するために、検証に適応できるだろうか?
論文 参考訳(メタデータ) (2025-01-31T17:09:53Z) - Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration [14.011702040133848]
ドラフトフェーズにおけるドラフトトークン間の相関性を強化するCTCベースのドラフトモデルを提案する。
実験結果から,提案手法は強いベースラインに比べて高い受理率と高速な推論速度が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-25T14:10:21Z) - On Divergence Measures for Training GFlowNets [3.7277730514654555]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、構成可能なオブジェクト上の非正規分布のサンプルとして設計された、償却推論モデルである。
伝統的に、GFlowNetsのトレーニング手順は、提案(フォワードポリシー)とターゲット(バックポリシー)の分布の対数二乗差を最小限にすることを目指している。
我々は、Renyi-$alpha$'s, Tsallis-$alpha$'s, reverse and forward KL'sという4つの分岐測度を概観し、GFlowNetsの学習文脈における勾配に対する統計的に効率的な推定器を設計する。
論文 参考訳(メタデータ) (2024-10-12T03:46:52Z) - Optimizing the Communication-Accuracy Trade-off in Federated Learning
with Rate-Distortion Theory [1.5771347525430772]
連合学習における重要なボトルネックは、クライアントデバイスから中央サーバにモデル更新を送信する際のネットワーク通信コストである。
本手法は,その経験的分布を考慮し,量子化された更新を適切な普遍コードで符号化する。
量子化は誤差をもたらすので、平均的な全勾配と歪みにおける所望のトレードオフを最適化することで量子化レベルを選択する。
論文 参考訳(メタデータ) (2022-01-07T20:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。