論文の概要: Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads
- arxiv url: http://arxiv.org/abs/2511.06209v2
- Date: Wed, 12 Nov 2025 01:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 16:10:52.866776
- Title: Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads
- Title(参考訳): 信頼による推論:不確かさによるLCM推論ステップの効率的な検証
- Authors: Jingwei Ni, Ekaterina Fadeeva, Tianyi Wu, Mubashara Akhtar, Jiaheng Zhang, Elliott Ash, Markus Leippold, Timothy Baldwin, See-Kiong Ng, Artem Shelmanov, Mrinmaya Sachan,
- Abstract要約: データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
- 参考スコア(独自算出の注目度): 104.9566359759396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving complex tasks usually requires LLMs to generate long multi-step reasoning chains. Previous work has shown that verifying the correctness of individual reasoning steps can further improve the performance and efficiency of LLMs on such tasks and enhance solution interpretability. However, existing verification approaches, such as Process Reward Models (PRMs), are either computationally expensive, limited to specific domains, or require large-scale human or model-generated annotations. Thus, we propose a lightweight alternative for step-level reasoning verification based on data-driven uncertainty scores. We train transformer-based uncertainty quantification heads (UHeads) that use the internal states of a frozen LLM to estimate the uncertainty of its reasoning steps during generation. The approach is fully automatic: target labels are generated either by another larger LLM (e.g., DeepSeek R1) or in a self-supervised manner by the original model itself. UHeads are both effective and lightweight, containing less than 10M parameters. Across multiple domains, including mathematics, planning, and general knowledge question answering, they match or even surpass the performance of PRMs that are up to 810x larger. Our findings suggest that the internal states of LLMs encode their uncertainty and can serve as reliable signals for reasoning verification, offering a promising direction toward scalable and generalizable introspective LLMs.
- Abstract(参考訳): 複雑なタスクを解くには、通常、長い多段階の推論連鎖を生成するためにLLMが必要である。
従来の研究は、個々の推論ステップの正しさを検証することで、そのようなタスクにおけるLCMの性能と効率をさらに向上し、解解釈可能性を高めることが示されている。
しかし、Process Reward Models (PRMs)のような既存の検証手法は計算コストが高く、特定のドメインに限られている。
そこで本研究では,データ駆動型不確実性スコアに基づくステップレベルの推論検証の軽量な代替手法を提案する。
我々は, 冷凍LDMの内部状態を用いた変圧器に基づく不確実性定量化ヘッド(UHeads)を訓練し, 生成中の推論ステップの不確かさを推定する。
ターゲットラベルは、別のより大きなLCM(例えば、DeepSeek R1)によって生成されるか、あるいはオリジナルのモデル自体によって自己管理的な方法で生成される。
UHeadは効率的かつ軽量であり、パラメータは1000万未満である。
数学、計画、一般知識質問応答など、複数の領域にまたがって、最大810倍のPRMの性能にマッチするか、超えている。
この結果から,LLMの内部状態が不確実性を符号化し,信頼性の高い検証信号として機能することが示唆された。
関連論文リスト
- Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA [65.38186593873313]
MHQA(Multi-Hop Question Answering)は、ノイズ下でのシーケンシャルな推論を通じて、分散した相互依存的な証拠を統合する必要がある。
我々はMHQAのための概念実証マルチコールフレームワークをInfoQAで紹介する。
我々は、理論とフレームワークを検証するために、厳密で騒音に富んだベンチマークを構築した。
論文 参考訳(メタデータ) (2025-09-25T14:11:57Z) - WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [34.350505059394536]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文 参考訳(メタデータ) (2025-07-22T03:21:48Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T12:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。