論文の概要: DIVERSED: Relaxed Speculative Decoding via Dynamic Ensemble Verification
- arxiv url: http://arxiv.org/abs/2604.07622v1
- Date: Wed, 08 Apr 2026 21:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.579087
- Title: DIVERSED: Relaxed Speculative Decoding via Dynamic Ensemble Verification
- Title(参考訳): DIVERSED:動的アンサンブル検証による推論復号化
- Authors: Ziyi Wang, Siva Rajesh Kasa, Ankith M S, Santhosh Kumar Kasa, Jiaru Zou, Sumit Negi, Ruqi Zhang, Nan Jiang, Qifan Song,
- Abstract要約: 投機的復号化は,複数のトークンを並列に起草することで,大規模言語モデルの推論を高速化する有効な手法である。
生成品質を保ちながら時間効率を向上させる緩やかな検証フレームワークである動的検証緩和投機復号法(DIVERSED)を提案する。
本研究では,DIVERSEDが標準的な投機的復号法に比べてかなり高い推論効率を実現することを示す。
- 参考スコア(独自算出の注目度): 29.426184837710952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding is an effective technique for accelerating large language model inference by drafting multiple tokens in parallel. In practice, its speedup is often bottlenecked by a rigid verification step that strictly enforces the accepted token distribution to exactly match the target model. This constraint leads to the rejection of many plausible tokens, lowering the acceptance rate and limiting overall time speedup. To overcome this limitation, we propose Dynamic Verification Relaxed Speculative Decoding (DIVERSED), a relaxed verification framework that improves time efficiency while preserving generation quality. DIVERSED learns an ensemble-based verifier that blends the draft and target model distributions with a task-dependent and context-dependent weight. We provide theoretical justification for our approach and demonstrate empirically that DIVERSED achieves substantially higher inference efficiency compared to standard speculative decoding methods. Code is available at: https://github.com/comeusr/diversed.
- Abstract(参考訳): 投機的復号化は,複数のトークンを並列に起草することで,大規模言語モデルの推論を高速化する有効な手法である。
実際には、そのスピードアップは、ターゲットモデルと正確に一致するように、受け入れられたトークン分布を厳格に強制する厳格な検証ステップによってボトルネックになることが多い。
この制約は多くの可算トークンを拒絶し、受け入れ率を下げ、全体的なタイムスピードアップを制限する。
この制限を克服するために、生成品質を保ちながら時間効率を向上させる緩和された検証フレームワークである動的検証緩和投機復号法(DIVERSED)を提案する。
DIVERSEDは、草案とターゲットモデルの分布とタスク依存およびコンテキスト依存の重みをブレンドするアンサンブルベースの検証器を学習する。
提案手法の理論的正当性を示すとともに,DIVERSEDが標準的な投機的復号法に比べてかなり高い推論効率を達成できることを実証的に示す。
コードは、https://github.com/comeusr/diversed.comで入手できる。
関連論文リスト
- Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Confidence-Modulated Speculative Decoding for Large Language Models [0.0]
本稿では,信頼度変調された起草に基づく投機的復号化のための情報理論フレームワークを提案する。
機械翻訳と要約タスクの実験は、標準的な投機的復号化よりも大幅に高速化された。
論文 参考訳(メタデータ) (2025-08-21T09:06:31Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Block Verification Accelerates Speculative Decoding [23.764655044837113]
投機的復号法は高速モデルを用いて、ターゲットモデルによって並列に検証されるトークンのブロックをドラフトする。
以前の作業では、ドラフト検証は独立してトークン・バイ・トークンで行われる。
ブロック全体を共同で検証する単純なドラフト検証アルゴリズムであるBlock Verificationを提案する。
論文 参考訳(メタデータ) (2024-03-15T16:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。