論文の概要: Efficient Adaptive Rejection Sampling for Accelerating Speculative Decoding in Large Language Models
- arxiv url: http://arxiv.org/abs/2512.13194v1
- Date: Mon, 15 Dec 2025 11:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.632438
- Title: Efficient Adaptive Rejection Sampling for Accelerating Speculative Decoding in Large Language Models
- Title(参考訳): 大規模言語モデルにおける投機的デコーディングの高速化のための適応型リジェクションサンプリング
- Authors: Chendong Sun,
- Abstract要約: 本稿では, 適応型リジェクションサンプリング(EARS)について紹介する。
EARSは、ターゲットモデル自身の予測不確実性を組み込むことで、受け入れ閾値を動的に調整する。
創造的記述とオープンドメインQAタスクの実験は、EARSが投機的復号化の効率を大幅に向上させることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative Decoding is a prominent technique for accelerating the autoregressive inference of large language models (LLMs) by employing a fast draft model to propose candidate token sequences and a large target model to verify them in parallel. However, its core component -- the rejection sampling mechanism -- relies on a fixed, context-independent random threshold. This leads to a significant "random rejection" problem in high-uncertainty generation scenarios, where plausible candidate tokens are frequently rejected due to random chance, undermining inference efficiency. This paper introduces Efficient Adaptive Rejection Sampling (EARS), a novel method that dynamically adjusts the acceptance threshold by incorporating the target model's own predictive uncertainty, measured as \(1 - \max(P_{\mathrm{target}})\). By introducing a tolerance term proportional to this uncertainty, EARS intelligently relaxes the acceptance criterion when the model is uncertain, effectively reducing random rejections while maintaining strict standards when the model is confident. Experiments on creative writing and open-domain QA tasks demonstrate that EARS significantly enhances the efficiency of speculative decoding, achieving up to an 18.12% increase in throughput with a negligible 0.84% accuracy drop on the GSM8K benchmark. The method requires no modifications to model architectures and can be seamlessly integrated into existing speculative decoding frameworks.
- Abstract(参考訳): 投機的復号化は、高速なドラフトモデルを用いて、候補トークンシーケンスと大きなターゲットモデルを並列に検証することにより、大規模言語モデル(LLM)の自動回帰推論を高速化する顕著な手法である。
しかしながら、そのコアコンポーネントであるリジェクションサンプリングメカニズムは、固定されたコンテキストに依存しないランダムしきい値に依存している。
これにより、不確実な生成シナリオにおいて、確率的候補トークンがランダムな確率で頻繁に拒否され、推論効率が損なわれるという重大な「ランダムな拒絶」問題が発生する。
本稿では, 対象モデルの予測不確実性を取り入れ, 受入閾値を動的に調整する手法である EARS (Efficient Adaptive Rejection Sampling) について述べる。
この不確実性に比例する寛容項を導入することにより、EARSはモデルが不確かであるときの受け入れ基準をインテリジェントに緩和し、モデルが確実であるときの厳格な基準を維持しながら、ランダムな拒絶を効果的に低減する。
創造的記述とオープンドメインQAタスクの実験により、EARSは投機的復号化の効率を著しく向上し、GSM8Kベンチマークの0.84%の精度低下で18.12%のスループット向上を達成した。
この手法では、モデルアーキテクチャの変更は必要とせず、既存の投機的デコーディングフレームワークにシームレスに統合することができる。
関連論文リスト
- Arbitrage: Efficient Reasoning via Advantage-Aware Speculation [71.45710345765528]
投機的復号化は、高速だが不正確なドラフトモデルを用いて推論を加速し、自動回帰的にトークンを提案する。
しかし、意味論的に等価なステップにおけるトークンミスマッチによる不要な拒絶のため、従来のトークンレベルの投機的デコーディングは、タスクの推論に苦労する。
提案するArbitrageは,ドラフトモデルとターゲットモデルとの相対的優位性に基づいて動的に生成をルーティングする,新しいステップレベルの投機生成フレームワークである。
論文 参考訳(メタデータ) (2025-12-04T17:50:53Z) - Confidence-Modulated Speculative Decoding for Large Language Models [0.0]
本稿では,信頼度変調された起草に基づく投機的復号化のための情報理論フレームワークを提案する。
機械翻訳と要約タスクの実験は、標準的な投機的復号化よりも大幅に高速化された。
論文 参考訳(メタデータ) (2025-08-21T09:06:31Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Robust Gaussian Processes via Relevance Pursuit [17.39376866275623]
本稿では,データポイント固有ノイズレベルを推定することにより,スパースアウトレーヤに対するロバスト性を実現するGPモデルを提案する。
我々は,データポイント固有ノイズ分散において,関連する対数限界確率が強く抑制されるようなパラメータ化が可能であることを,驚くべきことに示している。
論文 参考訳(メタデータ) (2024-10-31T17:59:56Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Quantifying the Uncertainty in Model Parameters Using Gaussian
Process-Based Markov Chain Monte Carlo: An Application to Cardiac
Electrophysiological Models [7.8316005711996235]
パーソナライズされたモデリングには,患者固有のモデルパラメータの推定が重要である。
標準マルコフ連鎖モンテカルロサンプリングは、計算不可能な繰り返しモデルシミュレーションを必要とする。
一般的な解決策は、より高速なサンプリングのためにシミュレーションモデルを計算効率の良いサロゲートに置き換えることである。
論文 参考訳(メタデータ) (2020-06-02T23:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。