論文の概要: From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning
- arxiv url: http://arxiv.org/abs/2604.15244v1
- Date: Thu, 16 Apr 2026 17:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:32.023775
- Title: From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning
- Title(参考訳): トークンからステップへ:効率的なマルチステップ推論のための検証型投機的デコーディング
- Authors: Kiran Purohit, Ramasuri Narayanam, Soumyabrata Pal,
- Abstract要約: SpecGuardは、モデル内部信号のみを使用してステップレベルの検証を行う投機的復号化フレームワークである。
実験の結果、SpecGuardの精度は3.6%向上し、レイテンシは11%削減された。
- 参考スコア(独自算出の注目度): 18.37034672013596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding (SD) accelerates large language model inference by allowing a lightweight draft model to propose outputs that a stronger target model verifies. However, its token-centric nature allows erroneous steps to propagate. Prior approaches mitigate this using external reward models, but incur additional latency, computational overhead, and limit generalizability. We propose SpecGuard, a verification-aware speculative decoding framework that performs step-level verification using only model-internal signals. At each step, SpecGuard samples multiple draft candidates and selects the most consistent step, which is then validated using an ensemble of two lightweight model-internal signals: (i) an attention-based grounding score that measures attribution to the input and previously accepted steps, and (ii) a log-probability-based score that captures token-level confidence. These signals jointly determine whether a step is accepted or recomputed using the target, allocating compute selectively. Experiments across a range of reasoning benchmarks show that SpecGuard improves accuracy by 3.6% while reducing latency by ~11%, outperforming both SD and reward-guided SD.
- Abstract(参考訳): 投機的復号(SD)は、より強力なターゲットモデルが検証する出力を軽量なドラフトモデルで提案することで、大きな言語モデル推論を加速する。
しかし、トークン中心の性質により、誤ったステップが伝播する。
従来のアプローチでは、外部の報酬モデルを使用してこれを緩和するが、追加のレイテンシ、計算オーバーヘッド、一般化可能性の制限が生じる。
モデル内部信号のみを用いたステップレベルの検証を行う,検証対応の投機的復号化フレームワークであるSpecGuardを提案する。
各ステップで、SpecGuardは複数のドラフト候補をサンプリングし、最も一貫性のあるステップを選択し、2つの軽量モデル内部信号のアンサンブルを使用して検証する。
一 入力及び予め受理されたステップに対する帰属を測る注意に基づく接地スコア
(ii)トークンレベルの信頼性をキャプチャするログ確率ベースのスコア。
これらの信号は、目標を用いてステップが受理されるか再計算されるかを共同で決定し、選択的に計算を割り当てる。
様々な推論ベンチマークの実験により、SpecGuardは3.6%の精度向上を実現し、レイテンシーを約11%削減した。
関連論文リスト
- Calibrated Speculative Decoding: Frequency-Guided Candidate Selection for Efficient Inference [27.59556627479635]
Calibrated Speculative Decodingは、標準検証によって破棄された有効なトークンを復元する。
Online Correction Memory は歴史的拒絶を集約し、繰り返し発散パターンを救助候補者として提案する。
Semantic Consistency Gatingは、正確なトークンマッチングの代わりに確率比を用いて候補許容性を検証する。
論文 参考訳(メタデータ) (2026-04-15T09:01:54Z) - Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference [3.3323431541048385]
完全証明を軽量なサンプリングベースアプローチで置き換える検証フレームワークとプロトコルを提案する。
我々は,機能的に異なるモデル間のトレース分離を活用可能な条件を定式化し,検証可能な推論プロトコルの安全性について議論する。
我々の手法は、最先端の暗号証明システムと比較して、証明時間を桁違いに削減する。
論文 参考訳(メタデータ) (2026-03-19T15:24:27Z) - Training-free Dropout Sampling for Semantic Token Acceptance in Speculative Decoding [13.249778063956917]
投機的復号化は、トークンを軽量なドラフトモデルで提案することにより、大きな言語モデル推論を加速する。
この研究は、ドラフトトークンとターゲットモデルの予測分布をマッチングする新しいアプローチであるDropMatchを導入している。
複数のベンチマークで実験したところ、我々のアプローチは、競争力のあるタスク性能を維持しながら、受け入れ期間を延ばすことが示されている。
論文 参考訳(メタデータ) (2026-02-11T04:53:33Z) - TriSpec: Ternary Speculative Decoding via Lightweight Proxy Verification [63.65902785448346]
投機的復号化は、その軽量なドラフトと並列検証機構を通じて、大幅なスピードアップを提供する。
計算コストを大幅に削減する軽量なプロキシを新たに導入した3次SDフレームワークであるTriSpecを提案する。
Qwen3およびDeepSeek-R1-Distill-Qwen/LLaMAファミリーの実験は、TriSpecが標準SDよりも最大35%のスピードアップを達成したことを示している。
論文 参考訳(メタデータ) (2026-01-30T17:04:18Z) - AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders [36.345954548346235]
投機的復号(SD)は、小さなドラフトモデルを用いて予測を生成することにより、大きな言語モデル推論を加速する。
知識蒸留(KD)は、すべてのトークンにわたるドラフトモデルとターゲットモデルの間のKLのばらつきを最小限にすることを目的としている。
選択的トークンフィルタリングをKDプロセスに組み込む新しい手法であるAdaSPECを提案する。
論文 参考訳(メタデータ) (2025-10-22T17:13:00Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Towards Better Code Generation: Adaptive Decoding with Uncertainty Guidance [42.737012213197865]
AdaDecはアダプティブなデコーディングフレームワークで、ルックアヘッドベースで不確実性を認識した停止と再実行のメカニズムを採用している。
AdaDecは、greedyデコーディングと比較して、Pass@1の精度で20.9%の絶対的なゲインを達成する。
AdaDecは、必要に応じて再ランクを適用することで、計算オーバーヘッドとレイテンシを低減し、信頼性とともに効率を向上する。
論文 参考訳(メタデータ) (2025-06-10T16:49:46Z) - Refine, Discriminate and Align: Stealing Encoders via Sample-Wise Prototypes and Multi-Relational Extraction [57.16121098944589]
RDAは、事前訓練されたエンコーダを盗むために、以前の取り組みで普及した2つの主要な欠陥に対処するために設計された先駆的なアプローチである。
これは、サンプルの様々な視点に対してターゲットエンコーダの表現を統一するサンプルワイドプロトタイプによって達成される。
より強力な有効性を得るために、我々はサロゲートエンコーダを訓練し、ミスマッチした埋め込み-プロトタイプペアを識別するマルチリレーショナル抽出損失を開発する。
論文 参考訳(メタデータ) (2023-12-01T15:03:29Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。