論文の概要: Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding
- arxiv url: http://arxiv.org/abs/2601.05724v1
- Date: Fri, 09 Jan 2026 11:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.95305
- Title: Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding
- Title(参考訳): ロスレス階層的投機的復号化による関節難読化の克服
- Authors: Yuxuan Zhou, Fei Huang, Heng Li, Fengyi Wu, Tianyu Wang, Jianwei Zhang, Junyang Lin, Zhi-Qi Cheng,
- Abstract要約: 我々は無益な無益な提案をする。
承認されたトークンの数を大幅に増加させる検証方法。
HSDは様々なモデルファミリやベンチマークの受け入れ率に一貫した改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 58.92526489742584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Verification is a key bottleneck in improving inference speed while maintaining distribution fidelity in Speculative Decoding. Recent work has shown that sequence-level verification leads to a higher number of accepted tokens compared to token-wise verification. However, existing solutions often rely on surrogate approximations or are constrained by partial information, struggling with joint intractability. In this work, we propose Hierarchical Speculative Decoding (HSD), a provably lossless verification method that significantly boosts the expected number of accepted tokens and overcomes joint intractability by balancing excess and deficient probability mass across accessible branches. Our extensive large-scale experiments demonstrate that HSD yields consistent improvements in acceptance rates across diverse model families and benchmarks. Moreover, its strong explainability and generality make it readily integrable into a wide range of speculative decoding frameworks. Notably, integrating HSD into EAGLE-3 yields over a 12% performance gain, establishing state-of-the-art decoding efficiency without compromising distribution fidelity. Code is available at https://github.com/ZhouYuxuanYX/Hierarchical-Speculative-Decoding.
- Abstract(参考訳): 検証は、投機的復号における分布の忠実さを維持しながら、推論速度を改善する上で重要なボトルネックである。
近年の研究では、シークエンスレベルの検証はトークン単位の検証よりも受け入れられたトークンの数が多いことが示されている。
しかし、既存の解はしばしばサロゲート近似に依存するか、部分的な情報によって制約される。
本研究は階層的投機的復号法(Hierarchical Speculative Decoding, HSD)を提案する。
我々の大規模な実験により、HSDは様々なモデルファミリやベンチマークの受け入れ率を一貫した改善をもたらすことが示された。
さらに、その強い説明可能性と汎用性により、幅広い投機的デコーディングフレームワークに容易に統合できる。
特に、HSDをEAGLE-3に統合すると12%以上の性能向上が得られ、分布の忠実さを損なうことなく最先端の復号効率が確立される。
コードはhttps://github.com/ZhouYuxuanYX/Hierarchical-Speculative-Decodingで入手できる。
関連論文リスト
- Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - Uncertainty-Masked Bernoulli Diffusion for Camouflaged Object Detection Refinement [24.522233459116354]
カモフラーゲ型物体検出(COD)は、ターゲットとその背景の微妙な視覚的差異による固有の課題を提示する。
本研究では,COD に特化して設計された最初の生成的改良フレームワークである Uncertainty-Masked Bernoulli Diffusion (UMBD) モデルを提案する。
UMBDは、セグメンテーション品質の低い残留領域にベルヌーイ拡散を選択的に適用する不確実性誘導マスキング機構を導入する。
論文 参考訳(メタデータ) (2025-06-12T14:02:18Z) - Towards Better Code Generation: Adaptive Decoding with Uncertainty Guidance [42.737012213197865]
AdaDecはアダプティブなデコーディングフレームワークで、ルックアヘッドベースで不確実性を認識した停止と再実行のメカニズムを採用している。
AdaDecは、greedyデコーディングと比較して、Pass@1の精度で20.9%の絶対的なゲインを達成する。
AdaDecは、必要に応じて再ランクを適用することで、計算オーバーヘッドとレイテンシを低減し、信頼性とともに効率を向上する。
論文 参考訳(メタデータ) (2025-06-10T16:49:46Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。