論文の概要: Training-free Dropout Sampling for Semantic Token Acceptance in Speculative Decoding
- arxiv url: http://arxiv.org/abs/2603.03333v1
- Date: Wed, 11 Feb 2026 04:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.16146
- Title: Training-free Dropout Sampling for Semantic Token Acceptance in Speculative Decoding
- Title(参考訳): 投機的復号における意味的トークンアクセプタンスのための無訓練ドロップアウトサンプリング
- Authors: Jeongtae Lee, Minjung Jo, Hyunjoon Jeong, Gunho Park, Sunghyeon Woo, Joonghoon Kim, Se Jung Kwon, Dongsoo Lee,
- Abstract要約: 投機的復号化は、トークンを軽量なドラフトモデルで提案することにより、大きな言語モデル推論を加速する。
この研究は、ドラフトトークンとターゲットモデルの予測分布をマッチングする新しいアプローチであるDropMatchを導入している。
複数のベンチマークで実験したところ、我々のアプローチは、競争力のあるタスク性能を維持しながら、受け入れ期間を延ばすことが示されている。
- 参考スコア(独自算出の注目度): 13.249778063956917
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speculative decoding accelerates large language model inference by proposing tokens with a lightweight draft model and selectively accepting them using a target model. This work introduces DropMatch, a novel approach that matches draft tokens to the predictive distribution of the target model via Monte Carlo dropout applied exclusively to the LM head, enabling sampling-based acceptance decisions. By generating multiple decoding paths, our method forms an empirical token distribution against which draft tokens are evaluated for consistency. This acceptance mechanism enables the model to adaptively control the size of decoding paths under an appropriate dropout probability, preventing substantial distortion of the target model predictive distribution. The proposed method operates in a training-free, data-free, and calibration-free manner, requires no architectural modification to pretrained models, and can be orthogonally integrated with a wide range of existing speculative decoding and inference acceleration techniques. Experiments across multiple benchmarks demonstrate that our approach increases acceptance length while maintaining competitive task performance, yielding inference speedups ranging from 1.09x to 1.33x over the standard baseline, and up to an additional 1.09x speedup when applied on top of EAGLE3.
- Abstract(参考訳): 投機的復号化は、トークンを軽量なドラフトモデルで提案し、ターゲットモデルを用いて選択的に受け入れることで、大きな言語モデル推論を加速させる。
この研究はDropMatchを導入している。これは、ドラフトトークンと、LMヘッドにのみ適用されるモンテカルロドロップアウトによるターゲットモデルの予測分布とをマッチングし、サンプリングベースの受け入れ決定を可能にする新しいアプローチである。
複数の復号経路を生成することにより,提案手法は,整合性の評価を行うための経験的トークン分布を形成する。
この受け入れ機構により、モデルが適切なドロップアウト確率でデコードパスのサイズを適応的に制御することができ、ターゲットモデル予測分布の実質的な歪みを防止できる。
提案手法は,トレーニングフリー,データフリー,キャリブレーションフリーの方法で動作し,事前訓練されたモデルにアーキテクチャ的な変更を加えることなく,既存の投機的復号化および推論促進技術と直交的に統合することができる。
複数のベンチマークで実験したところ、我々の手法は、競争力のあるタスク性能を維持しながら受け入れ期間を延長し、標準ベースライン上で1.09xから1.33xまでの推論スピードアップを達成し、EAGLE3上に適用すると1.09xのスピードアップを加算することがわかった。
関連論文リスト
- Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。
理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文 参考訳(メタデータ) (2026-02-08T00:09:40Z) - Multi-Token Prediction via Self-Distillation [73.81494481537636]
我々は,事前訓練された自己回帰言語モデルを,スローシングルの次のトークン予測モデルから高速なスタンドアロンマルチトークン予測モデルに変換するための新しいアプローチを検討する。
GSM8Kでは,単一トークン復号性能と比較して平均3倍以上の高速な復号化が可能なモデルを生成する。
論文 参考訳(メタデータ) (2026-02-05T18:54:48Z) - Training-Free Loosely Speculative Decoding: Accepting Semantically Correct Drafts Beyond Exact Match [21.810129153556044]
訓練不要な投機的復号法(FLy)は、厳密な検証基準を緩める新しい手法である。
FLyは目標モデルの精度の99%以上を維持し,平均2.81倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-28T08:23:30Z) - CARD: A Cache-Assisted Parallel Speculative Decoding Framework via Query-and-Correct Paradigm for Accelerating LLM Inference [14.527697328189362]
本稿では,新しいクエリ・アンド・コレクト・パラダイムを用いたCARDという投機的復号化フレームワークを提案する。
提案手法は,提案手法を検証から切り離し,詳細な調整を伴わずに効果的にドラフトモデルの効率を向上する。
CARDは既存の最先端の手法よりも優れており、バニラ自己回帰復号よりも最大4.83倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-06T14:02:10Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。