論文の概要: ConFu: Contemplate the Future for Better Speculative Sampling
- arxiv url: http://arxiv.org/abs/2603.08899v1
- Date: Mon, 09 Mar 2026 20:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.809406
- Title: ConFu: Contemplate the Future for Better Speculative Sampling
- Title(参考訳): ConFu: より優れた投機的サンプリングの未来を考える
- Authors: Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun,
- Abstract要約: textbfConFu (Contemplate the Future)は、新しい投機的デコーディングフレームワークで、ドラフトモデルが生成の今後の方向性を予測できるようにする。
我々の研究は、投機的復号を連続的推論トークンでブリッジする最初のものであり、LSM推論を加速するための新しい方向を提供する。
- 参考スコア(独自算出の注目度): 40.48053935426729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding has emerged as a powerful approach to accelerate large language model (LLM) inference by employing lightweight draft models to propose candidate tokens that are subsequently verified by the target model. The effectiveness of this paradigm critically depends on the quality of the draft model. While recent advances such as the EAGLE series achieve state-of-the-art speedup, existing draft models remain limited by error accumulation: they condition only on the current prefix, causing their predictions to drift from the target model over steps. In this work, we propose \textbf{ConFu} (Contemplate the Future), a novel speculative decoding framework that enables draft models to anticipate the future direction of generation. ConFu introduces (i) contemplate tokens and soft prompts that allow the draft model to leverage future-oriented signals from the target model at negligible cost, (ii) a dynamic contemplate token mechanism with MoE to enable context-aware future prediction, and (iii) a training framework with anchor token sampling and future prediction replication that learns robust future prediction. Experiments demonstrate that ConFu improves token acceptance rates and generation speed over EAGLE-3 by 8--11% across various downstream tasks with Llama-3 3B and 8B models. We believe our work is the first to bridge speculative decoding with continuous reasoning tokens, offering a new direction for accelerating LLM inference.
- Abstract(参考訳): 投機的復号化は,大規模言語モデル(LLM)推論を高速化するための強力なアプローチとして,軽量なドラフトモデルを用いて,ターゲットモデルによって検証された候補トークンを提案する。
このパラダイムの有効性は、ドラフトモデルの品質に大きく依存します。
EAGLEシリーズのような最近の進歩は最先端のスピードアップを達成しているが、既存のドラフトモデルはエラーの蓄積によって制限されている。
本研究では,新しい投機的復号化フレームワークであるtextbf{ConFu} (Contemplate the Future)を提案する。
ConFu紹介
一 ターゲットモデルから将来指向の信号を無視可能なコストで利用できるようにするトークン及びソフトプロンプトを熟考すること。
(II) 文脈を考慮した将来の予測を可能にするMoEを用いた動的コンテンポレートトークン機構、及び
三 アンカートークンサンプリングと将来の予測レプリケーションを備えたトレーニングフレームワークで、堅牢な将来予測を学習する。
実験によると、ConFuはLlama-3 3Bおよび8Bモデルを用いて、さまざまな下流タスクに対して、EAGLE-3よりもトークンの受け入れ率と生成速度を8--11%向上させる。
我々の研究は、投機的復号化を連続的推論トークンで橋渡しし、LSM推論を加速するための新しい方向を提供する最初のものであると信じています。
関連論文リスト
- Context-level Language Modeling by Learning Predictive Context Embeddings [79.00607069677393]
textbfContextLMは、固有のtextbfnext-context予測目標で標準事前学習を強化するフレームワークである。
このメカニズムは、将来のトークンチャンクから派生したエラー信号を利用して、マルチトークンコンテキストの予測表現を学ぶようモデルを訓練する。
GPT2およびPythiaモデルファミリーの実験では、1.5ドルBのパラメータまでスケールし、ContextLMがパープレキシティとダウンストリームのタスクパフォーマンスの両方で一貫した改善を提供することを示した。
論文 参考訳(メタデータ) (2025-10-23T07:09:45Z) - DONUT: A Decoder-Only Model for Trajectory Prediction [12.89335607622991]
トラジェクトリをアンロールするデコーダオンリーネットワークであるDONUTを提案する。
我々は、過去の軌跡を符号化し、単一の自己回帰モデルで将来の軌跡を予測する。
我々はArgoverse 2シングルエージェントモーション予測ベンチマークにおいて、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2025-06-07T16:24:29Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Accelerating Production LLMs with Combined Token/Embedding Speculators [4.649953910785797]
本報告では,新規な投機的復号化ドラフトモデルの設計と訓練について述べる。
文脈ベクトルとサンプリングトークンの両方にドラフト予測を条件付けすることで、投機器を訓練して高品質なn-gramを効率的に予測することができる。
論文 参考訳(メタデータ) (2024-04-29T21:59:07Z) - Decoding Speculative Decoding [4.56754610152086]
投機的復号化は、品質を犠牲にすることなく、大規模言語モデルの推論を高速化する技術である。
LLaMA-65BとOPT-66Bの350以上の実験を投機的復号法を用いて検討した。
新しく設計されたドラフトモデルは、既存のドラフトモデルよりも111%高いスループットを提供できる。
論文 参考訳(メタデータ) (2024-02-02T16:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。