論文の概要: Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding
- arxiv url: http://arxiv.org/abs/2605.20104v1
- Date: Tue, 19 May 2026 16:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.53877
- Title: Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding
- Title(参考訳): 投機的デコードのためのハイブリッドツリー構築
- Authors: Yuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang,
- Abstract要約: Graftは、相互強化操作としてプルーニングと検索を結合する補償フレームワークである。
短文ベンチマークでは、最大5.41$times$ Speedupを実現し、大規模Qwen3-235Bでは平均速度を21.8%向上させる。
また、DFlashスタイルのブロック起草パラダイムにGraftを適用するための予備的な調査を行い、自己回帰的な起草木を超えて移植を拡大するための最初の証拠と洞察を提供する。
- 参考スコア(独自算出の注目度): 27.332123289262086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding (SD) accelerates large language model inference by leveraging a draft-then-verify paradigm. To maximize the acceptance rate, recent methods construct expansive draft trees, which unfortunately incur severe VRAM bandwidth and computational overheads that bottleneck end-to-end speedups. While dynamic-depth pruning can reduce this latency by removing marginal branches, it also discards potentially valid candidates, preventing the acceptance rate from reaching the upper bound of dense trees. In this paper, we identify a critical opportunity in resource allocation: the transition from dense to pruned drafting frees up significant computational budget. To break this Pareto tradeoff, we introduce Graft, a compensation framework that couples pruning and retrieval as mutually reinforcing operations. Pruning supplies sufficient budget for retrieval, while retrieval compensates for pruning-induced coverage loss and recovers accepted length. By employing a sequential `prune-then-graft' mechanism, Graft attaches highly predictive retrieved tokens into positions opened by pruning, filling the topological gaps with near-zero overhead. Graft is entirely training-free and lossless. Comprehensive evaluations show that Graft establishes a new Pareto frontier across practical deployment settings, including short-context generation, long-context generation, and large-scale models. On short-context benchmarks, it achieves up to 5.41$\times$ speedup and improves average speedup over EAGLE-3 by up to 21.8% on the large-scale Qwen3-235B. We also provide a preliminary exploration of applying Graft to the DFlash-style block drafting paradigm, offering initial evidence and insights for extending grafting beyond autoregressive draft trees.
- Abstract(参考訳): 投機的復号(SD)は、ドラフト・then-verifyパラダイムを活用することで、大きな言語モデル推論を加速する。
受け入れ率を最大化するために、近年の手法は拡張されたドラフトツリーを構築するが、残念ながら深刻なVRAM帯域幅と計算オーバーヘッドを発生させ、エンドツーエンドのスピードアップをボトルネックにしている。
動的深度プルーニングは、限界枝を除去することで、この遅延を低減できるが、潜在的に有効な候補を排除し、高密度木の上限に達するのを阻止する。
本稿では,資源割当における重要な機会として,資源割当の高密度化から高密度化への移行により,大幅な計算予算が解放されることを示す。
このParetoのトレードオフを断ち切るために、我々は、相互強化操作としてプルーニングと検索を結合する補償フレームワークGraftを紹介します。
プルーニングは検索に十分な予算を提供し、検索はプルーニングによるカバレッジ損失を補償し、受け入れられた長さを回復する。
逐次的な「プルー・テン・グラフト」機構を用いることで、グラフトはプルーニングによって開いた位置に高度に予測されたトークンを付加し、位相的ギャップをほぼゼロのオーバーヘッドで埋める。
Graftは完全にトレーニング不要で、ロスレスです。
総合的な評価によると、Graftは、短いコンテキスト生成、長いコンテキスト生成、大規模モデルを含む、実用的なデプロイメント設定にわたって、新しいParetoフロンティアを確立している。
短文ベンチマークでは、最大5.41$\times$のスピードアップを実現し、大規模Qwen3-235Bでは、ERGLE-3の平均スピードアップを21.8%向上させる。
また、DFlashスタイルのブロック起草パラダイムにGraftを適用するための予備的な調査を行い、自己回帰的な起草木を超えて移植を拡大するための最初の証拠と洞察を提供する。
関連論文リスト
- Making Every Verified Token Count: Adaptive Verification for MoE Speculative Decoding [15.040000425985324]
ツリーベースの投機的復号化は、複数のドラフト候補を並列に検証することで自己回帰生成を加速するが、この利点はスパース・ミックス・オブ・エクササイズ(MoE)モデルでは弱まる。
我々は,MoE投機的復号化のためのトレーニング不要,ハイパーパラメータフリー,ロスレス適応検証手法EVICTを提案する。
EVICTは、目標検証の前にドラフトツリーを切断し、コスト効率の良いプレフィックスのみを保持することで、検証済みのトークンを全てカウントする。
論文 参考訳(メタデータ) (2026-05-01T01:52:01Z) - ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios [12.103618967955846]
投機的復号化は、大規模言語モデルの推論を加速することを約束するが、その有効性はプロダクショングレードのサービスでしばしば低下する。
我々はSGLangに統合された高機能なフレームワークであるECHOを導入し、予算スケジューリング問題として投機的実行を再構成する。
ECHOは低負荷と高負荷の両方のシナリオでSOTA法を一貫して上回り、最大5.35倍のウォールタイムスピードアップを実現し、20%以上の相対的なスピードアップを実現している。
論文 参考訳(メタデータ) (2026-03-10T03:51:24Z) - Arbor: A Framework for Reliable Navigation of Critical Conversation Flows [0.19573380763700712]
本稿では,決定木ナビゲーションを専門的なノードレベルのタスクに分解するフレームワークであるArborを紹介する。
Abortは平均ターン精度を29.4ポイント改善し、ターン毎のレイテンシを57.1%削減し、ターン毎のコストを平均14.4倍削減する。
論文 参考訳(メタデータ) (2026-02-16T11:09:02Z) - SAGE: Accelerating Vision-Language Models via Entropy-Guided Adaptive Speculative Decoding [15.734450444255787]
投機的復号化は、視覚言語モデルにおける推論を加速するための有望なアプローチとして現れている。
既存のメソッドはデコードプロセスを通して固定されている静的ツリー構造に依存している。
実時間予測の不確実性に基づいて投機木構造を動的に調整する新しいフレームワークであるSAGEを提案する。
論文 参考訳(メタデータ) (2026-01-31T05:35:40Z) - Double: Breaking the Acceleration Limit via Double Retrieval Speculative Parallelism [19.7914286780195]
textscDouble (Double Retrieval Speculative Parallelism)を紹介する。
提案手法は,理論的な高速化限界を断ち切るために反復的検索投機を実行する。
実験では、LLaMA3.3-70Bで$textbf5.3times$、Qwen3-32Bで$textbf2.8times$の最先端のスピードアップが示されている。
論文 参考訳(メタデータ) (2026-01-09T04:35:21Z) - Fast Inference of Visual Autoregressive Model with Adjacency-Adaptive Dynamical Draft Trees [50.230925890958936]
本稿では,隣接するトークン状態と先行受入率を活用することで,ドラフトツリーの深さと幅を調整できる適応型動的ドラフトツリーを提案する。
ADT-Treeは、それぞれ3.13xと3.05xのスピードアップを実現し、LANTERNのような緩やかなサンプリング手法とシームレスに統合する。
論文 参考訳(メタデータ) (2025-12-26T04:45:49Z) - BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models [57.304411396229035]
BranchGRPOは、ロールアウトプロセスを分岐木に再構成する手法である。
HPDv2.1イメージアライメントでは、BranchGRPOはDanceGRPOよりも最大でtextbf16%のアライメントスコアを改善する。
ハイブリッド版であるBranchGRPO-MixはDanceGRPOよりも4.7倍の速度でトレーニングを加速する。
論文 参考訳(メタデータ) (2025-09-07T12:53:06Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。