論文の概要: Polybasic Speculative Decoding Through a Theoretical Perspective
- arxiv url: http://arxiv.org/abs/2510.26527v1
- Date: Thu, 30 Oct 2025 14:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.854589
- Title: Polybasic Speculative Decoding Through a Theoretical Perspective
- Title(参考訳): 理論的視点による多塩基性投機的復号法
- Authors: Ruilin Wang, Huixia Li, Yuexiao Ma, Xiawu Zheng, Fei Chao, Xuefeng Xiao, Rongrong Ji,
- Abstract要約: 推論レイテンシは、大規模言語モデルの大規模展開において重要なボトルネックである。
本稿では,包括的理論的解析を基盤とした,新しいエンポリベーシックな投機的復号化フレームワークを提案する。
我々の手法は、LLaMA2-Chat 7Bの3.31times$から4.01times$、LLaMA3-8Bの3.87倍、Vicuna-7Bの4.43倍、Qwen2-7Bの3.85倍の3.85倍のスピードアップ比が得られることを示す。
- 参考スコア(独自算出の注目度): 68.71678077009386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference latency stands as a critical bottleneck in the large-scale deployment of Large Language Models (LLMs). Speculative decoding methods have recently shown promise in accelerating inference without compromising the output distribution. However, existing work typically relies on a dualistic draft-verify framework and lacks rigorous theoretical grounding. In this paper, we introduce a novel \emph{polybasic} speculative decoding framework, underpinned by a comprehensive theoretical analysis. Specifically, we prove a fundamental theorem that characterizes the optimal inference time for multi-model speculative decoding systems, shedding light on how to extend beyond the dualistic approach to a more general polybasic paradigm. Through our theoretical investigation of multi-model token generation, we expose and optimize the interplay between model capabilities, acceptance lengths, and overall computational cost. Our framework supports both standalone implementation and integration with existing speculative techniques, leading to accelerated performance in practice. Experimental results across multiple model families demonstrate that our approach yields speedup ratios ranging from $3.31\times$ to $4.01\times$ for LLaMA2-Chat 7B, up to $3.87 \times$ for LLaMA3-8B, up to $4.43 \times$ for Vicuna-7B and up to $3.85 \times$ for Qwen2-7B -- all while preserving the original output distribution. We release our theoretical proofs and implementation code to facilitate further investigation into polybasic speculative decoding.
- Abstract(参考訳): 推論のレイテンシは、大規模言語モデル(LLM)の大規模展開において、重要なボトルネックとなっている。
投機的復号法は近年,出力分布を損なうことなく推論を高速化する可能性を示している。
しかしながら、既存の作業は通常、双対的ドラフト検証フレームワークに依存しており、厳密な理論的根拠がない。
本稿では, 包括的理論的解析を基盤とした, 仮説復号化フレームワークについて紹介する。
具体的には、多モデル投機復号システムの最適推論時間を特徴付ける基本定理を証明し、より一般的な多基本パラダイムへの双対的アプローチを超えてどのように拡張するかについて光を当てる。
マルチモデルトークン生成に関する理論的研究を通じて,モデル能力,受理長,計算コストの相互関係を公開・最適化する。
我々のフレームワークは、スタンドアロンの実装と既存の投機的手法との統合の両方をサポートし、実際にの性能が向上する。
LLaMA2-Chat 7Bは3.31\times$から4.01\times$、LLaMA3-8Bは3.87 \times$、Vicuna-7Bは4.43 \times$、Qwen2-7Bは最大3.85 \times$となる。
我々は、多塩基性投機的復号化のさらなる研究を容易にするため、理論的な証明と実装コードをリリースする。
関連論文リスト
- Lifecycle-Aware code generation: Leveraging Software Engineering Phases in LLMs [12.70863561286374]
トレーニング段階と推論段階の両方に中間アーティファクトを組み込んだライフサイクル対応フレームワークを導入する。
実験によると、ライフサイクルレベルの微調整は、微調整の前に同じモデルで最大75%の精度でコードの正しさを向上させる。
オープンソース LLM は、かつて私たちのフレームワークの下で微調整され、コードで事前訓練されたモデルにマッチするか、わずかに優れています。
論文 参考訳(メタデータ) (2025-10-28T02:54:02Z) - A2R: An Asymmetric Two-Stage Reasoning Framework for Parallel Reasoning [57.727084580884075]
モデルポテンシャルと実際の性能の間のギャップを埋めるために設計された非対称な2段階推論フレームワーク。
A2R-Efficientは、Qwen3-4BとQwen3-8Bシンセサイザーを組み合わせた「小型から大型」の派生型である。
その結果、A2Rはパフォーマンス・ブートスティングのフレームワークであるだけでなく、現実世界のアプリケーションに対して効率的かつ実用的なソリューションであることがわかった。
論文 参考訳(メタデータ) (2025-09-26T08:27:03Z) - Improving LLM General Preference Alignment via Optimistic Online Mirror Descent [57.622821649679786]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合において顕著な効果を示した。
本稿では,Bradley-Terry (BT) モデル仮定を廃止し,汎用ゲームとして定式化された LLM のアライメントについて検討する。
提案手法は双対性ギャップ上の$O(T-1)$バウンドを達成し、以前の$O(T-1/2)$の結果を改善することを示す。
論文 参考訳(メタデータ) (2025-02-24T05:24:52Z) - Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。
FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文 参考訳(メタデータ) (2024-12-17T08:02:08Z) - A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。