論文の概要: Confidence-Modulated Speculative Decoding for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.15371v1
- Date: Thu, 21 Aug 2025 09:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.251119
- Title: Confidence-Modulated Speculative Decoding for Large Language Models
- Title(参考訳): 大規模言語モデルに対する信頼制御型投機的復号法
- Authors: Jaydip Sen, Subhasis Dasgupta, Hetvi Waghela,
- Abstract要約: 本稿では,信頼度変調された起草に基づく投機的復号化のための情報理論フレームワークを提案する。
機械翻訳と要約タスクの実験は、標準的な投機的復号化よりも大幅に高速化された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding has emerged as an effective approach for accelerating autoregressive inference by parallelizing token generation through a draft-then-verify paradigm. However, existing methods rely on static drafting lengths and rigid verification criteria, limiting their adaptability across varying model uncertainties and input complexities. This paper proposes an information-theoretic framework for speculative decoding based on confidence-modulated drafting. By leveraging entropy and margin-based uncertainty measures over the drafter's output distribution, the proposed method dynamically adjusts the number of speculatively generated tokens at each iteration. This adaptive mechanism reduces rollback frequency, improves resource utilization, and maintains output fidelity. Additionally, the verification process is modulated using the same confidence signals, enabling more flexible acceptance of drafted tokens without sacrificing generation quality. Experiments on machine translation and summarization tasks demonstrate significant speedups over standard speculative decoding while preserving or improving BLEU and ROUGE scores. The proposed approach offers a principled, plug-in method for efficient and robust decoding in large language models under varying conditions of uncertainty.
- Abstract(参考訳): 投機的復号化は,トークン生成の並列化による自己回帰推論の高速化に有効な手法として出現している。
しかし、既存の手法は静的な起草の長さと厳密な検証基準に依存しており、様々なモデルの不確実性や入力の複雑さに対して適応性を制限する。
本稿では,信頼度変調された起草に基づく投機的復号化のための情報理論フレームワークを提案する。
提案手法は,提案手法を用いて各イテレーションにおける投機生成トークンの数を動的に調整する。
この適応機構はロールバック頻度を低減し、資源利用を改善し、出力忠実性を維持する。
また、同一の信頼信号を用いて検証処理を変調し、生成品質を犠牲にすることなく、より柔軟な起草トークンの受け入れを可能にする。
機械翻訳と要約タスクの実験は、BLEUとROUGEのスコアを保存または改善しながら、標準的な投機復号よりも大幅に高速化された。
提案手法は, 様々な不確実性条件下での大規模言語モデルにおいて, 効率的かつ堅牢な復号化を行うための, 原則的, プラグイン方式を提供する。
関連論文リスト
- Training-Free Self-Correction for Multimodal Masked Diffusion Models [61.84305395626145]
本研究では,事前学習したマスク拡散モデルの帰納バイアスを利用した学習自由自己補正フレームワークを提案する。
本手法は,サンプリングステップを短縮したテキスト・画像生成およびマルチモーダル理解タスクにおける生成品質を著しく向上させる。
論文 参考訳(メタデータ) (2026-02-02T23:58:15Z) - MARS: Unleashing the Power of Speculative Decoding via Margin-Aware Verification [7.935725883885573]
Speculative Decoding (SD)は、自動回帰型大言語モデル(LLM)推論をデカップリングして高速化する。
対象モデルの局所的決定性に適応する訓練不要でドメインに依存しない検証戦略であるMargin-Aware Speculative Verificationを提案する。
本手法は,目標ロジットから直接測定した決定安定性の検証を行い,厳密な検証が最小限の利益をもたらす場合にのみ拒否を緩和する。
論文 参考訳(メタデータ) (2026-01-21T22:03:06Z) - PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [52.67948063133533]
生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。
既存の手法は、セマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされ、初期、高レベルのトークンのエラーは、生成軌道を無関係な意味部分空間に不可逆的に分散させる。
本稿では,高密度なステップバイステップ検証を生成モデルに統合する新しいフレームワークPromiseを提案する。
論文 参考訳(メタデータ) (2026-01-08T07:38:46Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Optimizing Decoding Paths in Masked Diffusion Models by Quantifying Uncertainty [16.454646094266703]
Masked Diffusion Models (MDMs) は柔軟で非自己回帰的な生成を提供するが、この自由は挑戦をもたらす。
我々はこの問題を初めて公式化し、生成経路に沿った累積予測の不確実性に出力品質の変動をもたらす。
本研究は,MDMにおける不確実性を負債から,高品質なソリューションを発見する上での鍵となる優位性へと効果的に転換する,生成の理解と制御の原則的ツールとして,Denoising Entropyを確立した。
論文 参考訳(メタデータ) (2025-12-24T18:59:51Z) - Efficient Adaptive Rejection Sampling for Accelerating Speculative Decoding in Large Language Models [2.4065240342323384]
本稿では, 適応型リジェクションサンプリング(EARS)について紹介する。
EARSは、ターゲットモデルの予測不確かさを1-max(P_target)として組み込むことで、受入閾値を動的に調整する。
投機的復号化の効率を大幅に向上させ、18.12%のスループット向上を実現し、GSM8Kベンチマークでは0.84%の精度低下を無視できる。
論文 参考訳(メタデータ) (2025-12-15T11:08:56Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。