論文の概要: Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding
- arxiv url: http://arxiv.org/abs/2509.22134v1
- Date: Fri, 26 Sep 2025 09:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.35136
- Title: Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding
- Title(参考訳): Bridging Draft Policy Misalignment: 投機的デコードのためのグループツリー最適化
- Authors: Shijing Hu, Jingyang Li, Zhihui Lu, Pan Zhou,
- Abstract要約: グループツリー最適化(GTO)を導入し、デコード時ツリーポリシーとトレーニングを整合させる。
ドラフトツリーリワードの増加は、受け入れ長とスピードアップを確実に改善することを示す。
GTOは、効率的な大規模言語モデル推論のための実用的で一般的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 24.681973968208364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding accelerates large language model (LLM) inference by letting a lightweight draft model propose multiple tokens that the target model verifies in parallel. Yet existing training objectives optimize only a single greedy draft path, while decoding follows a tree policy that re-ranks and verifies multiple branches. This draft policy misalignment limits achievable speedups. We introduce Group Tree Optimization (GTO), which aligns training with the decoding-time tree policy through two components: (i) Draft Tree Reward, a sampling-free objective equal to the expected acceptance length of the draft tree under the target model, directly measuring decoding performance; (ii) Group-based Draft Policy Training, a stable optimization scheme that contrasts trees from the current and a frozen reference draft model, forming debiased group-standardized advantages and applying a PPO-style surrogate along the longest accepted sequence for robust updates. We further prove that increasing our Draft Tree Reward provably improves acceptance length and speedup. Across dialogue (MT-Bench), code (HumanEval), and math (GSM8K), and multiple LLMs (e.g., LLaMA-3.1-8B, LLaMA-3.3-70B, Vicuna-1.3-13B, DeepSeek-R1-Distill-LLaMA-8B), GTO increases acceptance length by 7.4% and yields an additional 7.7% speedup over prior state-of-the-art EAGLE-3. By bridging draft policy misalignment, GTO offers a practical, general solution for efficient LLM inference.
- Abstract(参考訳): 投機的復号化は、軽量なドラフトモデルに、ターゲットモデルが並列に検証する複数のトークンを提案することによって、大きな言語モデル(LLM)推論を加速させる。
しかし、既存のトレーニング目的は1つのgreedyドラフトパスのみを最適化し、デコードは複数のブランチを再ランクし検証するツリーポリシーに従っている。
この政策のミスアライメントは達成可能なスピードアップを制限します。
グループツリー最適化(GTO)を導入し、トレーニングとデコード時ツリーポリシーを2つのコンポーネントで整合させる。
一 標的モデルに基づくドラフトツリーの受入長に匹敵するサンプリング不要の目的であるドラフトツリー・リワード
(II)グループベースのドラフトポリシートレーニングは、木を現在のものとフリーズした参照ドラフトモデルとは対照的に安定な最適化手法であり、グループ標準のデバイアスド・アドバンテージを形成し、PPOスタイルのサロゲートを、堅牢な更新のために最も長いシーケンスに沿って適用する。
さらに、ドラフトツリーリワードの増加は、受け入れ長とスピードアップを確実に改善することを示す。
Across dialogue (MT-Bench), code (HumanEval), and math (GSM8K), and multiple LLMs (e g , LLaMA-3.1-8B, LLaMA-3.3-70B, Vicuna-1.3-13B, DeepSeek-R1-Distill-LLaMA-8B), GTO は受け入れ長を7.4%増加させ、最先端の EAGLE-3 よりも7.7%高速化する。
GTOは、草案方針の不一致をブリッジすることで、効率的なLLM推論のための実用的で一般的なソリューションを提供する。
関連論文リスト
- TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-06-12T05:25:35Z) - RASD: Retrieval-Augmented Speculative Decoding [5.3926068062773895]
投機的復号化は大規模言語モデル(LLM)における推論を加速する
本稿では,モデルに基づく投機的復号化を促進する検索手法を採用したRASD(Retrieval-Augmented Speculative Decoding)を提案する。
論文 参考訳(メタデータ) (2025-03-05T12:10:14Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure [40.9990864658776]
投機的復号には、複数のトークンを1ステップで生成できるようにする"ドラフトと検証"機構が使用されている。
既存の手法は主に固定されたドラフト構造を採用しており、異なる状況に適応できない。
我々は適応的でスケーラブルなドラフトツリーを構築するアルゴリズムであるOPT-Treeを提案する。
論文 参考訳(メタデータ) (2024-06-25T04:45:53Z) - Tree Prompting: Efficient Task Adaptation without Fine-Tuning [112.71020326388029]
Tree Promptingはプロンプトの決定ツリーを構築し、複数のLMコールをリンクしてタスクを解決する。
分類データセットの実験により、Tree Promptingは競合するメソッドよりも精度が向上し、微調整と競合することが示された。
論文 参考訳(メタデータ) (2023-10-21T15:18:22Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。