論文の概要: TriSpec: Ternary Speculative Decoding via Lightweight Proxy Verification
- arxiv url: http://arxiv.org/abs/2601.23180v1
- Date: Fri, 30 Jan 2026 17:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.577931
- Title: TriSpec: Ternary Speculative Decoding via Lightweight Proxy Verification
- Title(参考訳): TriSpec: 軽量プロキシ検証による第3の投機的復号化
- Authors: Haoyun Jiang, Junqi He, Feng Hong, Xinlong Yang, Jianwei Zhang, Zheng Li, Zhengyang Zhuge, Zhiyong Chen, Bo Han, Junyang Lin, Jiangchao Yao,
- Abstract要約: 投機的復号化は、その軽量なドラフトと並列検証機構を通じて、大幅なスピードアップを提供する。
計算コストを大幅に削減する軽量なプロキシを新たに導入した3次SDフレームワークであるTriSpecを提案する。
Qwen3およびDeepSeek-R1-Distill-Qwen/LLaMAファミリーの実験は、TriSpecが標準SDよりも最大35%のスピードアップを達成したことを示している。
- 参考スコア(独自算出の注目度): 63.65902785448346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference efficiency in Large Language Models (LLMs) is fundamentally limited by their serial, autoregressive generation, especially as reasoning becomes a key capability and response sequences grow longer. Speculative decoding (SD) offers a powerful solution, providing significant speed-ups through its lightweight drafting and parallel verification mechanism. While existing work has nearly saturated improvements in draft effectiveness and efficiency, this paper advances SD from a new yet critical perspective: the verification cost. We propose TriSpec, a novel ternary SD framework that, at its core, introduces a lightweight proxy to significantly reduce computational cost by approving easily verifiable draft sequences and engaging the full target model only when encountering uncertain tokens. TriSpec can be integrated with state-of-the-art SD methods like EAGLE-3 to further reduce verification costs, achieving greater acceleration. Extensive experiments on the Qwen3 and DeepSeek-R1-Distill-Qwen/LLaMA families show that TriSpec achieves up to 35\% speedup over standard SD, with up to 50\% fewer target model invocations while maintaining comparable accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)における推論効率は、特に推論が重要な能力となり、応答シーケンスが長くなるにつれて、そのシリアルな自己回帰生成によって根本的に制限される。
投機的復号化(SD)は強力なソリューションであり、軽量なドラフトと並列検証機構を通じて大幅なスピードアップを提供する。
既存の作業はドラフトの有効性と効率がほぼ飽和しているが,本論文では新たな重要な視点である検証コストからSDを推し進める。
本稿では,第3級SDフレームワークであるTriSpecを提案する。その中核となるのは,容易に検証可能なドラフトシーケンスを承認し,不確実なトークンに遭遇した場合のみ,完全なターゲットモデルを実行することにより,計算コストを大幅に削減する軽量プロキシである。
TriSpecは、EAGLE-3のような最先端のSDメソッドと統合することができ、検証コストをさらに削減し、より大きな加速を達成することができる。
Qwen3とDeepSeek-R1-Distill-Qwen/LLaMAファミリーの大規模な実験によると、TriSpecは標準SDよりも最大35倍のスピードアップを実現し、目標モデルの呼び出しを最大50%削減し、同等の精度を維持している。
関連論文リスト
- Double: Breaking the Acceleration Limit via Double Retrieval Speculative Parallelism [19.7914286780195]
textscDouble (Double Retrieval Speculative Parallelism)を紹介する。
提案手法は,理論的な高速化限界を断ち切るために反復的検索投機を実行する。
実験では、LLaMA3.3-70Bで$textbf5.3times$、Qwen3-32Bで$textbf2.8times$の最先端のスピードアップが示されている。
論文 参考訳(メタデータ) (2026-01-09T04:35:21Z) - VVS: Accelerating Speculative Decoding for Visual Autoregressive Generation via Partial Verification Skipping [52.58270801983525]
投機的復号法(SD)は視覚ARモデルの高速化に有効であることが証明されている。
部分的検証スキップによる視覚AR生成を高速化する新しいフレームワークVVSを提案する。
論文 参考訳(メタデータ) (2025-11-17T16:50:58Z) - When, What, and How: Rethinking Retrieval-Enhanced Speculative Decoding [29.402164743559]
ReSpecは、ドラフト作成を適応的な意思決定に変換する新しいフレームワークである。
Spec-Benchの実験では、ReSpecの最先端アクセラレーションはそれぞれ33%以上と25%以上を達成している。
論文 参考訳(メタデータ) (2025-11-03T06:57:16Z) - Speculative Verification: Exploiting Information Gain to Refine Speculative Decoding [8.36763119650407]
投機的検証は投機精度を動的に予測し、検証長を適用してスループットを最大化する。
SD性能を最大2$times$まで改善し、大容量設定では平均1.4$times$になる。
論文 参考訳(メタデータ) (2025-09-29T06:25:54Z) - Consultant Decoding: Yet Another Synergistic Mechanism [49.996656694586164]
コンサルタント・デコーディング(CD)は、大きな言語モデルでのみ計算されるトークンレベルの確率を用いて、候補のドラフトを検証する。
CDは、目標モデルと比較して2.5倍の推論速度向上を実現し、同等の生成品質を維持している。
論文 参考訳(メタデータ) (2025-06-03T03:13:27Z) - Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - Lite-FPN for Keypoint-based Monocular 3D Object Detection [18.03406686769539]
keypointベースのモノクロ3dオブジェクト検出は、非常に進歩し、高い速度精度のトレードオフを達成した。
マルチスケール機能融合を実現する軽量機能ピラミッドネットワークLite-FPNを提案します。
提案手法は,高い精度とフレームレートを同時に達成する。
論文 参考訳(メタデータ) (2021-05-01T14:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。