論文の概要: Steering Pretrained Drafters during Speculative Decoding
- arxiv url: http://arxiv.org/abs/2511.09844v1
- Date: Fri, 14 Nov 2025 01:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.522145
- Title: Steering Pretrained Drafters during Speculative Decoding
- Title(参考訳): 投機的復号化過程における操舵前処理
- Authors: Frédéric Berdoz, Peer Rheinboldt, Roger Wattenhofer,
- Abstract要約: 投機的復号化は、生成を高速なドラフトと並列検証に分離することで言語モデル推論を加速する。
主な制限は、トークンの受け入れを制限し、全体的な有効性を低下させるドラフトラ検証ミスアライメントである。
検証器の隠れ状態から計算し,事前訓練されたドラフトアライメントに注入するステアリングベクトルという,軽量な動的アライメント機構を導入する。
提案手法では, 標準サンプリングでは35%, グリージーサンプリングでは22%, 無視可能な計算オーバーヘッドを発生させながら, 許容トークン数を最大35%向上させる。
- 参考スコア(独自算出の注目度): 32.75269650141292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates language model inference by separating generation into fast drafting and parallel verification. Its main limitation is drafter-verifier misalignment, which limits token acceptance and reduces overall effectiveness. While small drafting heads trained from scratch compensate with speed, they struggle when verification dominates latency or when inputs are out of distribution. In contrast, pretrained drafters, though slower, achieve higher acceptance rates thanks to stronger standalone generation capabilities, making them competitive when drafting latency is negligible relative to verification or communication overhead. In this work, we aim to improve the acceptance rates of pretrained drafters by introducing a lightweight dynamic alignment mechanism: a steering vector computed from the verifier's hidden states and injected into the pretrained drafter. Compared to existing offline alignment methods such as distillation, our approach boosts the number of accepted tokens by up to 35\% under standard sampling and 22\% under greedy sampling, all while incurring negligible computational overhead. Importantly, our approach can be retrofitted to existing architectures and pretrained models, enabling rapid adoption.
- Abstract(参考訳): 投機的復号化は、生成を高速なドラフトと並列検証に分離することで言語モデル推論を加速する。
主な制限は、トークンの受け入れを制限し、全体的な有効性を低下させるドラフトラ検証ミスアライメントである。
スクラッチから訓練された小さなドラフトヘッドは速度を補正するが、検証がレイテンシを支配したり、入力が分散していない場合に苦労する。
対照的に、事前訓練されたドラフト作成者は、より強力なスタンドアロン生成機能のおかげで、より遅いが、高い受け入れ率を達成する。
本研究は,検証者の隠れ状態から計算し,事前学習されたドラフトアライメントに注入されるステアリングベクトルという,軽量な動的アライメント機構を導入することにより,事前学習されたドラフトアライメントの受け入れ率を向上させることを目的とする。
蒸留などの既存のオフラインアライメント手法と比較して, 標準サンプリングでは最大35 %, グリーディサンプリングでは22 %まで増加し, 計算オーバーヘッドは無視できる。
重要なことは、我々のアプローチは既存のアーキテクチャや事前訓練されたモデルに適合し、迅速な採用を可能にします。
関連論文リスト
- Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - Self-Speculative Biased Decoding for Faster Live Translation [0.0]
Self-Speculative Biased Decodingは、一貫して成長する入力ストリームに対して、スクラッチから繰り返し出力を生成するのを避けるために設計された、新しい推論パラダイムである。
提案手法は,従来の自己回帰的再翻訳に比べて,品質を損なうことなく最大1.7倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-09-26T01:13:37Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Fast and Robust Early-Exiting Framework for Autoregressive Language
Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。
我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。
並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文 参考訳(メタデータ) (2023-10-09T05:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。