論文の概要: Dynamic Delayed Tree Expansion For Improved Multi-Path Speculative Decoding
- arxiv url: http://arxiv.org/abs/2602.16994v1
- Date: Thu, 19 Feb 2026 01:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.594658
- Title: Dynamic Delayed Tree Expansion For Improved Multi-Path Speculative Decoding
- Title(参考訳): マルチパス投機復号化のための動的遅延木拡張
- Authors: Rahul Thomas, Teo Kitanovski, Micah Goldblum, Arka Pal,
- Abstract要約: 本稿では,モデルファミリー,タスク,サンプリング体制間の検証戦略を体系的に評価する。
Traversal Verificationは、OTベースのメソッドがはるかに遅れているため、一貫して支配的だ。
我々は,部分的な単一経路を起草し,分岐点を遅らせる遅延木拡張を提案する。
- 参考スコア(独自算出の注目度): 35.984745508100595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-path speculative decoding accelerates lossless sampling from a target model by using a cheaper draft model to generate a draft tree of tokens, and then applies a verification algorithm that accepts a subset of these. While prior work has proposed various verification algorithms for i.i.d rollouts, their relative performance under matched settings remains unclear. In this work, we firstly present a systematic evaluation of verification strategies across model families, tasks, and sampling regimes, and find that Traversal Verification dominates consistently, with OT-based methods lagging far behind. Our analysis uncovers that this occurs because OT-based methods achieve high multi-token acceptance near the root of the draft tree, while multi-token gains are most impactful deeper in the draft tree, where draft and target distributions diverge. Based on this insight, we propose delayed tree expansion, which drafts a partial single path, delaying the i.i.d. branching point. We show that delayed tree expansion preserves the target distribution and improves on root-node i.i.d rollouts. Further, we develop a dynamic neural selector that estimates the expected block efficiency of optimal-transport-based verification methods from draft and target features, enabling context-dependent expansion decisions. Our neural selector allows OT-based methods like SpecInfer to outperform Traversal Verification for the first time, achieving 5% higher average throughput across a wide range of models, datasets, and sampling settings.
- Abstract(参考訳): マルチパス投機復号は、より安価なドラフトモデルを用いて、トークンのドラフトツリーを生成し、それらのサブセットを受け入れる検証アルゴリズムを適用することにより、ターゲットモデルからのロスレスサンプリングを加速する。
以前の研究では、i.i.dロールアウトのための様々な検証アルゴリズムが提案されていたが、一致した設定下での相対的な性能は未だ不明である。
本研究ではまず,モデルファミリ,タスク,サンプリング体制間の検証戦略を体系的に評価し,OTに基づく手法がはるかに遅れているため,トラバーサル検証が一貫した結果が得られた。
提案手法は, ドラフトツリーの根元付近で高いマルチトークン受容を達成できるのに対して, ドラフトツリーではマルチトークンゲインが最も深く, ドラフトツリーとターゲット分布が分岐しているため, この結果が得られた。
この知見に基づき、部分的な単一経路を起草し、i.d.分岐点を遅らせる遅延木拡大を提案する。
遅延木の拡大は, ターゲット分布を保ち, ルートノード i.i.d ロールアウトを改善することを示す。
さらに,提案手法の予測ブロック効率を,特徴量と目的量から推定し,文脈依存的な拡張決定を可能にする動的ニューラルネットワークセレクタを開発した。
我々のニューラルセレクタは、SpecInferのようなOTベースのメソッドがトラバース検証を初めて上回り、広範囲のモデル、データセット、サンプリング設定で平均スループットを5%向上します。
関連論文リスト
- Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - TreeRPO: Tree Relative Policy Optimization [65.51935468270916]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - Traversal Verification for Speculative Tree Decoding [15.720388162422978]
投機的復号化は、大きな言語モデルを加速するための有望なアプローチである。
本稿では,新しい投機的復号化アルゴリズムであるトラバーサル検証を紹介する。
提案手法は,既存手法よりも受け入れ長とスループットを継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-05-18T12:51:55Z) - RASD: Retrieval-Augmented Speculative Decoding [5.3926068062773895]
投機的復号化は大規模言語モデル(LLM)における推論を加速する
本稿では,モデルに基づく投機的復号化を促進する検索手法を採用したRASD(Retrieval-Augmented Speculative Decoding)を提案する。
論文 参考訳(メタデータ) (2025-03-05T12:10:14Z) - Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。
本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。
提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文 参考訳(メタデータ) (2025-02-10T09:24:06Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。