論文の概要: ConfSpec: Efficient Step-Level Speculative Reasoning via Confidence-Gated Verification
- arxiv url: http://arxiv.org/abs/2602.18447v1
- Date: Wed, 28 Jan 2026 05:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.56329
- Title: ConfSpec: Efficient Step-Level Speculative Reasoning via Confidence-Gated Verification
- Title(参考訳): ConfSpec: 信頼性保証による効率的なステップレベル投機推論
- Authors: Siran Liu, Cyril Y. He,
- Abstract要約: ステップレベルの投機的推論はこのコストを軽減することを目的としていますが、既存のアプローチは長年のトレードオフに直面しています。
我々は、このトレードオフを解決する信頼性の高いケースケード検証フレームワークConfSpecを提案する。
- 参考スコア(独自算出の注目度): 0.2578242050187029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought reasoning significantly improves the performance of large language models on complex tasks, but incurs high inference latency due to long generation traces. Step-level speculative reasoning aims to mitigate this cost, yet existing approaches face a long-standing trade-off among accuracy, inference speed, and resource efficiency. We propose ConfSpec, a confidence-gated cascaded verification framework that resolves this trade-off. Our key insight is an asymmetry between generation and verification: while generating a correct reasoning step requires substantial model capacity, step-level verification is a constrained discriminative task for which small draft models are well-calibrated within their competence range, enabling high-confidence draft decisions to be accepted directly while selectively escalating uncertain cases to the large target model. Evaluation across diverse workloads shows that ConfSpec achieves up to 2.24$\times$ end-to-end speedups while matching target-model accuracy. Our method requires no external judge models and is orthogonal to token-level speculative decoding, enabling further multiplicative acceleration.
- Abstract(参考訳): Chain-of-Thought推論は、複雑なタスクにおける大きな言語モデルの性能を大幅に改善するが、長い世代のトレースのために高い推論遅延を引き起こす。
ステップレベルの投機的推論は、このコストを軽減することを目的としていますが、既存のアプローチでは、正確性、推論速度、リソース効率の長年にわたるトレードオフに直面しています。
我々は、このトレードオフを解決する信頼性の高いケースケード検証フレームワークConfSpecを提案する。
我々の重要な洞察は、生成と検証の非対称性である: 正しい推論ステップを生成するには、相当なモデルキャパシティを必要とするが、ステップレベルの検証は、小さなドラフトモデルをその能力範囲内で適切に調整し、信頼性の高いドラフト決定を直接受け入れると共に、不確実なケースを大きなターゲットモデルに選択的にエスカレートする、制約付き識別タスクである。
さまざまなワークロードに対する評価は、ConfSpecが最大2.24$\times$エンドツーエンドのスピードアップを達成し、ターゲットモデルの精度と一致していることを示している。
本手法は,外部判断モデルを必要としないとともに,トークンレベルの投機的復号化に直交し,さらなる乗法的加速を可能にする。
関連論文リスト
- Thinking by Subtraction: Confidence-Driven Contrastive Decoding for LLM Reasoning [58.331709210563616]
サブトラクションによる思考は、信頼主導のコントラスト的デコーディングアプローチである。
低信頼トークンの小さなサブセットは、誤りの推論と不要な出力拡大に不当に寄与する。
信頼駆動型コントラストデコーディング(Confidence-Driven Contrastive Decoding)は,デコーディング中の低信頼トークンを検出し,それらの位置で介入する。
論文 参考訳(メタデータ) (2026-02-20T14:13:22Z) - MARS: Unleashing the Power of Speculative Decoding via Margin-Aware Verification [7.935725883885573]
Speculative Decoding (SD)は、自動回帰型大言語モデル(LLM)推論をデカップリングして高速化する。
対象モデルの局所的決定性に適応する訓練不要でドメインに依存しない検証戦略であるMargin-Aware Speculative Verificationを提案する。
本手法は,目標ロジットから直接測定した決定安定性の検証を行い,厳密な検証が最小限の利益をもたらす場合にのみ拒否を緩和する。
論文 参考訳(メタデータ) (2026-01-21T22:03:06Z) - Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。
二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。
実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文 参考訳(メタデータ) (2025-12-21T05:22:04Z) - Efficient Adaptive Rejection Sampling for Accelerating Speculative Decoding in Large Language Models [2.4065240342323384]
本稿では, 適応型リジェクションサンプリング(EARS)について紹介する。
EARSは、ターゲットモデルの予測不確かさを1-max(P_target)として組み込むことで、受入閾値を動的に調整する。
投機的復号化の効率を大幅に向上させ、18.12%のスループット向上を実現し、GSM8Kベンチマークでは0.84%の精度低下を無視できる。
論文 参考訳(メタデータ) (2025-12-15T11:08:56Z) - Arbitrage: Efficient Reasoning via Advantage-Aware Speculation [71.45710345765528]
投機的復号化は、高速だが不正確なドラフトモデルを用いて推論を加速し、自動回帰的にトークンを提案する。
しかし、意味論的に等価なステップにおけるトークンミスマッチによる不要な拒絶のため、従来のトークンレベルの投機的デコーディングは、タスクの推論に苦労する。
提案するArbitrageは,ドラフトモデルとターゲットモデルとの相対的優位性に基づいて動的に生成をルーティングする,新しいステップレベルの投機生成フレームワークである。
論文 参考訳(メタデータ) (2025-12-04T17:50:53Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。