論文の概要: Reject Only Critical Tokens: Pivot-Aware Speculative Decoding
- arxiv url: http://arxiv.org/abs/2511.00351v1
- Date: Sat, 01 Nov 2025 01:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.734627
- Title: Reject Only Critical Tokens: Pivot-Aware Speculative Decoding
- Title(参考訳): 致命的なトークンのみを拒絶する:Pivot-Aware Speculative Decoding
- Authors: Amir Ziashahabi, Yavuz Faruk Bakman, Duygu Nur Yaldiz, Mostafa El-Khamy, Sai Praneeth Karimireddy, Salman Avestimehr,
- Abstract要約: 投機的復号(SD)は、出力がターゲットモデルの分布と正確に一致することを保証する。
提案するPivot-Aware Speculative Decodingは,最終的な出力の実用性低下につながるトークンのみを拒否する。
さまざまなデータセットにまたがってメソッドを評価し、同等のユーティリティで最大2.5タイムのスピードアップを達成できることを示します。
- 参考スコア(独自算出の注目度): 31.22793593647334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative Decoding (SD) ensures that the output matches the target model's distribution exactly. However, we argue that this distribution matching requirement is too stringent and results in unnecessarily low acceptance rates, limiting potential speedups. Instead, we advocate a reformulation of the decoding objective: the proposed decoding strategy should match the expected utility, i.e., the task-specific performance, of the target model. This perspective also aligns better with real-world use cases of LLMs, where utility (e.g., code correctness, factual accuracy) is often more important than sampling distribution. Based on this reformulation, we propose a novel decoding strategy: Pivot-Aware Speculative Decoding, which rejects only those tokens that would lead to a utility drop in the final output. We refer to these critical tokens as pivot tokens. We propose a method for labeling tokens as pivotal or non-pivotal and train a lightweight classifier to detect them. This method can be viewed as a relaxed version of standard SD, which offers much higher acceptance while preserving utility. We evaluate our method across various datasets, demonstrating that we can achieve up to $2.5\times$ speedup with comparable utility. Source code is available at https://github.com/amir-zsh/PAD.
- Abstract(参考訳): 投機的復号(SD)は、出力がターゲットモデルの分布と正確に一致することを保証する。
しかし、この分布マッチング要件は厳しすぎるため、不必要に受け入れ率が低くなり、潜在的なスピードアップが制限される。
提案する復号戦略は,目標モデルの期待する実用性,すなわちタスク固有の性能と一致すべきである。
この観点は、実用性(例えば、コード正確性、事実的正確性)が分散をサンプリングするよりも重要である場合において、LLMの現実世界のユースケースとよく一致している。
この改定に基づいて、我々は新たな復号戦略であるPivot-Aware Speculative Decodingを提案する。
これらの重要なトークンをピボットトークンと呼ぶ。
本稿では,トークンをピボットあるいは非ピボットとしてラベル付けする手法を提案し,それを検出するために軽量な分類器を訓練する。
この方法は標準SDの緩和版と見なすことができ、実用性を維持しながらはるかに高い受け入れを提供する。
さまざまなデータセットにまたがってメソッドを評価し、同等のユーティリティで最大2.5\times$スピードアップを達成できることを示します。
ソースコードはhttps://github.com/amir-zsh/PAD.comで入手できる。
関連論文リスト
- Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - AutoJudge: Judge Decoding Without Manual Annotation [13.451750613294054]
AutoJudgeは大規模言語モデル(LLM)推論をタスク固有の損失投機的デコードで高速化する手法である。
提案手法は,ターゲットモデルとドラフトモデルとのミスマッチのどれを修正すべきかを,半グレディな探索アルゴリズムに頼っている。
論文 参考訳(メタデータ) (2025-04-28T17:59:28Z) - EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models [40.651650382105636]
Vanillaメソッドは、サンプル間で新しいトークンの数が一貫していることを保証するために、パディングトークンを追加する。
本稿では,メモリや計算のオーバーヘッドを増大させることなく,異なるサンプルで受け入れられる不整合トークンの問題を解決する手法を提案する。
提案手法は, パディングトークンを追加することなく, 異なるサンプルの予測トークンが矛盾する状況に対処できる。
論文 参考訳(メタデータ) (2024-05-13T08:24:21Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Coping with Label Shift via Distributionally Robust Optimisation [72.80971421083937]
分散ロバスト最適化(DRO)に基づく目的最小化モデルを提案する。
そこで我々は,提案した目的を最適化するために,大規模問題に適した勾配降下近位ミラー上昇アルゴリズムを設計し,解析する。
論文 参考訳(メタデータ) (2020-10-23T08:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。