論文の概要: Revisiting Judge Decoding from First Principles via Training-Free Distributional Divergence
- arxiv url: http://arxiv.org/abs/2601.04766v1
- Date: Thu, 08 Jan 2026 09:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.139626
- Title: Revisiting Judge Decoding from First Principles via Training-Free Distributional Divergence
- Title(参考訳): 訓練自由分散分断による第一原則からの判断復号の再検討
- Authors: Shengyin Sun, Yiming Li, Renxi Liu, Weizhe Lin, Hui-Ling Zhen, Xianzhi Yu, Mingxuan Yuan, Chen Ma,
- Abstract要約: ジャッジ・デコーディングは、投機的デコーディングの厳密な検証を緩和することで推論を加速する。
本研究では、このパラダイムを第一原理から再考し、コストのかかる監督によって得られた臨界点のスコアが、本質的に、ドラフトターゲットの分散分散にエンコードされていることを明らかにした。
- 参考スコア(独自算出の注目度): 31.435770434219005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Judge Decoding accelerates LLM inference by relaxing the strict verification of Speculative Decoding, yet it typically relies on expensive and noisy supervision. In this work, we revisit this paradigm from first principles, revealing that the ``criticality'' scores learned via costly supervision are intrinsically encoded in the draft-target distributional divergence. We theoretically prove a structural correspondence between learned linear judges and Kullback-Leibler (KL) divergence, demonstrating they rely on the same underlying logit primitives. Guided by this, we propose a simple, training-free verification mechanism based on KL divergence. Extensive experiments across reasoning and coding benchmarks show that our method matches or outperforms complex trained judges (e.g., AutoJudge), offering superior robustness to domain shifts and eliminating the supervision bottleneck entirely.
- Abstract(参考訳): デコード判事は投機的復号法の厳密な検証を緩めることでLCM推論を加速させるが、通常は高価でノイズの多い監督に依存している。
本研究では,このパラダイムを第一原理から再検討し,コストのかかる監視を通じて得られた「臨界」スコアが,本来はドラフトターゲットの分散分散にエンコードされていることを明らかにした。
理論的には、学習された線形判断とKL(Kulback-Leibler)の発散の間の構造的対応を証明し、それらが基礎となるロジットプリミティブに依存することを示した。
そこで本研究では,KLの発散に基づく簡易な学習自由度検証機構を提案する。
推論とコーディングのベンチマークにわたる大規模な実験は、我々のメソッドが複雑な訓練を受けた審査員(例えばAutoJudge)と一致し、ドメインシフトに対する優れた堅牢性を提供し、監督のボトルネックを完全に排除していることを示している。
関連論文リスト
- Refinement Provenance Inference: Detecting LLM-Refined Training Prompts from Model Behavior [58.751981587234916]
本稿では,Refinement Provenance Inference (RPI)監査タスクをRefinement Provenance Inference (RPI)として定式化する。
本稿では,ロジットレベルの信号で教師が強制する可能性機能を融合させるロジットベースのフレームワークであるReProを提案する。
トレーニング中、ReProはシャドウファインチューニングを通じて転送可能な表現を学び、訓練データアクセスなしで、見えない犠牲者の証明を推測するために軽量のリニアヘッドを使用する。
論文 参考訳(メタデータ) (2026-01-05T10:16:41Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - SelfJudge: Faster Speculative Decoding via Self-Supervised Judge Verification [28.63435151584449]
本稿では,対象モデルの自己監督により検証者の判断を訓練するSelfJudgeを提案する。
本手法は,トークン置換応答が本来の応答の意味を保っているかどうかを評価することによって意味保存を測定する。
論文 参考訳(メタデータ) (2025-09-26T02:21:12Z) - ASCoT: An Adaptive Self-Correction Chain-of-Thought Method for Late-Stage Fragility in LLMs [21.409155842171497]
CoT(Chain-of-Thought)の促進により,LLM(Large Language Models)の推論機能が大幅に向上した。
CoT鎖の後半で導入されたエラーは、当初と同一のエラーよりも、最終回答が著しく破損する可能性が高い。
本稿では、この脆弱性に対処するために、適応自己補正連鎖法(ASCoT)を導入する。
論文 参考訳(メタデータ) (2025-08-07T11:26:40Z) - Feedback Guidance of Diffusion Models [14.162420300295365]
Interval-Free Guidance (CFG) は, 条件付き拡散モデルにおける試料の忠実度向上の標準となっている。
本稿では,FBG(FeedBack Guidance)を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:46:32Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Zero-Shot Verification-guided Chain of Thoughts [64.862738244735]
我々は,COTプロンプトによる自己生成推論ステップの自己検証に着目する。
この設定を探索するため、我々はCOT STEPと呼ばれる新しいゼロショットプロンプトを設計し、推論ステップのゼロショット分解を支援する。
我々は,検証者の推論連鎖の正しさを分類する能力を評価し,推論の導出に検証者のスコアを使用する方法を探究する。
論文 参考訳(メタデータ) (2025-01-21T03:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。