論文の概要: When, What, and How: Rethinking Retrieval-Enhanced Speculative Decoding
- arxiv url: http://arxiv.org/abs/2511.01282v1
- Date: Mon, 03 Nov 2025 06:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.146389
- Title: When, What, and How: Rethinking Retrieval-Enhanced Speculative Decoding
- Title(参考訳): 検索機能強化された投機的デコードの再考
- Authors: Min Fang, Zhihui Fu, Qibin Zhao, Jun Wang,
- Abstract要約: ReSpecは、ドラフト作成を適応的な意思決定に変換する新しいフレームワークである。
Spec-Benchの実験では、ReSpecの最先端アクセラレーションはそれぞれ33%以上と25%以上を達成している。
- 参考スコア(独自算出の注目度): 29.402164743559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding (SD) has emerged as an effective technique to accelerate large language model (LLM) inference without compromising output quality. However, the achievable speedup largely depends on the effectiveness of the drafting model. While model-based methods like EAGLE-2 are accurate but costly, retrieval-enhanced methods like SAM-Decoding rely on heuristic switching strategies that often trigger unnecessary retrievals. To address this, we propose ReSpec (\textbf{Re}trieval-enhanced \textbf{Spe}culative Decoding), a novel framework that transforms heuristic drafter switching into adaptive decision-making. ReSpec features three core innovations: 1) An \textbf{entropy-guided adaptive trigger} quantifies contextual predictability to initiate retrieval only when uncertainty is low, avoiding costly low-quality speculations. 2) A \textbf{feedback-driven candidate selection} leverages historical feedback to organize multiple high-quality candidates for parallel verification, maximizing retrieval utility. 3) A source-aware \textbf{relaxed verification strategy} applies strict checks to model-generated drafts while using a relaxed verification for retrieved drafts, achieving a better balance between accuracy and efficiency. Extensive experiments on Spec-Bench demonstrate that ReSpec achieves state-of-the-art acceleration,outperforming EAGLE-2 and SAM-Decoding by over $33\%$ and $25\%$, respectively, while maintaining output quality.
- Abstract(参考訳): 投機的復号化(SD)は,出力品質を損なうことなく,大規模言語モデル(LLM)推論を高速化する有効な手法として登場した。
しかし、達成可能なスピードアップは、ドラフトモデルの有効性に大きく依存する。
EAGLE-2のようなモデルベースの手法は正確だがコストがかかるが、SAM-Decodingのような検索強化手法は、しばしば不要な検索を引き起こすヒューリスティックな切り替え戦略に依存している。
これを解決するために、ヒューリスティックなドラフトラを適応的な意思決定に変換する新しいフレームワークであるReSpec(\textbf{Re}trieval-enhanced \textbf{Spe}culative Decoding)を提案する。
ReSpecには3つのコアイノベーションがある。
1) テキストbf{entropy-guided Adaptive trigger} は、不確実性が低い場合にのみ検索を開始するためのコンテキスト予測可能性を定量化し、コストのかかる低品質な推測を避ける。
2) <textbf{feedback-driven candidate selection} は過去のフィードバックを活用し,並列検証のための複数の高品質な候補を整理し,検索ユーティリティを最大化する。
3) 精度と効率のバランスを良好に保ちつつ, 検索したドラフトに対して緩やかな検証を行いながら, モデル生成のドラフトに対して厳密なチェックを施す。
Spec-Benchの大規模な実験により、ReSpecは出力品質を維持しながら、最先端のアクセラレーションを達成し、EAGLE-2とSAM-Decodingをそれぞれ3,3\%と2,5\%以上向上することを示した。
関連論文リスト
- Reinforced Informativeness Optimization for Long-Form Retrieval-Augmented Generation [77.10390725623125]
LFQA(Long-form Question answering)は、大規模言語モデルに固有の課題を提示する。
RioRAGは、強化情報性最適化を通じて長めのRAGを進化させる新しい強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-05-27T07:34:41Z) - Alignment-Augmented Speculative Decoding with Alignment Sampling and Conditional Verification [48.17448109580635]
トレーニング不要なアライメント拡張型投機的復号アルゴリズムを提案する。
提案手法は,平均受理長を2.39まで,生成速度を2.23倍に向上させる。
論文 参考訳(メタデータ) (2025-05-19T14:55:41Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generationは、大規模な言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Think-then-Act: A Dual-Angle Evaluated Retrieval-Augmented Generation [3.2134014920850364]
大型言語モデル(LLM)は時相の誤りや幻覚的内容の生成といった課題に直面していることが多い。
二重角評価による検索拡張生成フレームワーク textitThink-then-Act を提案する。
論文 参考訳(メタデータ) (2024-06-18T20:51:34Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。