論文の概要: Calibrated Speculative Decoding: Frequency-Guided Candidate Selection for Efficient Inference
- arxiv url: http://arxiv.org/abs/2604.13634v1
- Date: Wed, 15 Apr 2026 09:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.459671
- Title: Calibrated Speculative Decoding: Frequency-Guided Candidate Selection for Efficient Inference
- Title(参考訳): Calibrated Speculative Decoding:効率的な推論のための周波数誘導候補選択
- Authors: Xuwen Zhou, Fangxin Liu, Chao Wang, Xiao Zheng, Hao Zheng, Min He, Li Jiang, Haibing Guan,
- Abstract要約: Calibrated Speculative Decodingは、標準検証によって破棄された有効なトークンを復元する。
Online Correction Memory は歴史的拒絶を集約し、繰り返し発散パターンを救助候補者として提案する。
Semantic Consistency Gatingは、正確なトークンマッチングの代わりに確率比を用いて候補許容性を検証する。
- 参考スコア(独自算出の注目度): 27.59556627479635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates autoregressive generation by letting draft tokens bypass full verification, but conventional frameworks suffer from frequent false rejections, particularly when draft models produce semantically correct but lexically divergent outputs. In this paper, we present Calibrated Speculative Decoding (CSD), a training-free framework that recovers valid tokens discarded by standard verification. Guided by the principle of "Frequency-Guided Candidate Selection and Probability-Guarded Acceptance," CSD incorporates two lightweight modules: Online Correction Memory, which aggregates historical rejections to propose recurring divergence patterns as rescue candidates, and Semantic Consistency Gating, which verifies candidate admissibility using probability ratios instead of exact token matching. Our evaluation across diverse large language models demonstrates that CSD outperforms existing methods, achieving a peak throughput speedup of 2.33x. CSD preserves model accuracy across all tasks while further boosting performance on complex reasoning datasets. These results establish CSD as a highly effective, lightweight solution for practical LLM deployments.
- Abstract(参考訳): 投機的復号化は、ドラフトトークンを完全な検証をバイパスすることで自己回帰生成を加速させるが、従来のフレームワークは、特にドラフトモデルが意味論的に正しいが語彙的に異なる出力を生成する場合、しばしば偽の拒絶に悩まされる。
本稿では,標準検証によって破棄された有効なトークンを復元するトレーニング不要のフレームワークであるCalibrated Speculative Decoding (CSD)を提案する。
周波数誘導候補選択と確率誘導アクセプタンス」の原則により、CSDには2つの軽量モジュールが組み込まれている。オンライン補正メモリは、繰り返し発散パターンを救助候補として提案するための歴史的拒絶を集約し、セマンティック一貫性ゲーティングは、正確なトークンマッチングの代わりに確率比を用いて候補許容率を検証する。
多様な大規模言語モデルに対する評価の結果,CSDは既存の手法よりも優れており,スループットのピーク速度は2.33倍に向上した。
CSDは、複雑な推論データセットのパフォーマンスをさらに向上しながら、すべてのタスクにわたってモデルの正確性を保っている。
これらの結果は、実用的なLCMデプロイメントのための、非常に効果的で軽量なソリューションとして、CSDを確立している。
関連論文リスト
- Learning from Emptiness: De-biasing Listwise Rerankers with Content-Agnostic Probability Calibration [76.08899010904652]
CapCalは、ランキング決定から位置バイアスを機械的に分離する、トレーニング不要のフレームワークである。
シングルパス効率を保ちながら、トレーニング不要の手法で優れた性能を発揮する。
論文 参考訳(メタデータ) (2026-04-11T10:47:22Z) - Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding [58.92526489742584]
我々は無益な無益な提案をする。
承認されたトークンの数を大幅に増加させる検証方法。
HSDは様々なモデルファミリやベンチマークの受け入れ率に一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-09T11:10:29Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - AdaSD: Adaptive Speculative Decoding for Efficient Language Model Inference [1.1852406625172216]
大規模言語モデル(LLM)に対する適応的投機的復号法(AdaSD)を提案する。
AdaSDは推論中に生成時間と受け入れ基準を動的に調整する。
ベンチマークデータセットの実験では、AdaSDは標準の投機的復号化よりも最大49%のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-12-12T04:56:08Z) - Training-Free Loosely Speculative Decoding: Accepting Semantically Correct Drafts Beyond Exact Match [21.810129153556044]
訓練不要な投機的復号法(FLy)は、厳密な検証基準を緩める新しい手法である。
FLyは目標モデルの精度の99%以上を維持し,平均2.81倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-28T08:23:30Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - CARD: A Cache-Assisted Parallel Speculative Decoding Framework via Query-and-Correct Paradigm for Accelerating LLM Inference [14.527697328189362]
本稿では,新しいクエリ・アンド・コレクト・パラダイムを用いたCARDという投機的復号化フレームワークを提案する。
提案手法は,提案手法を検証から切り離し,詳細な調整を伴わずに効果的にドラフトモデルの効率を向上する。
CARDは既存の最先端の手法よりも優れており、バニラ自己回帰復号よりも最大4.83倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-06T14:02:10Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - Cascade Reward Sampling for Efficient Decoding-Time Alignment [17.278488115500615]
復号時間アライメントにおける効率の両立を図るためにカスケード逆サンプリング(CARDS)を導入する。
CARDSは、大きな言語モデル(LLM)と報酬モデル(RM)の両方の冗長な計算を最小化する
論文 参考訳(メタデータ) (2024-06-24T04:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。