論文の概要: Self-Evaluating LLMs for Multi-Step Tasks: Stepwise Confidence Estimation for Failure Detection
- arxiv url: http://arxiv.org/abs/2511.07364v1
- Date: Mon, 10 Nov 2025 18:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.405627
- Title: Self-Evaluating LLMs for Multi-Step Tasks: Stepwise Confidence Estimation for Failure Detection
- Title(参考訳): マルチステップタスクのための自己評価LDM:障害検出のための段階的信頼度推定
- Authors: Vaibhav Mavi, Shubh Jaroria, Weiqi Sun,
- Abstract要約: 自己評価型大規模言語モデル(LLM)は、複雑な推論において有意義な信頼度推定を提供する。
ステップワイズ評価は一般的に、潜在的なエラーを検出する際の総合的なスコアよりも優れている。
- 参考スコア(独自算出の注目度): 1.1087735229999818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliability and failure detection of large language models (LLMs) is critical for their deployment in high-stakes, multi-step reasoning tasks. Prior work explores confidence estimation for self-evaluating LLM-scorer systems, with confidence scorers estimating the likelihood of errors in LLM responses. However, most methods focus on single-step outputs and overlook the challenges of multi-step reasoning. In this work, we extend self-evaluation techniques to multi-step tasks, testing two intuitive approaches: holistic scoring and step-by-step scoring. Using two multi-step benchmark datasets, we show that stepwise evaluation generally outperforms holistic scoring in detecting potential errors, with up to 15% relative increase in AUC-ROC. Our findings demonstrate that self-evaluating LLM systems provide meaningful confidence estimates in complex reasoning, improving their trustworthiness and providing a practical framework for failure detection.
- Abstract(参考訳): 大規模言語モデル(LLM)の信頼性と障害検出は、高いスループットのマルチステップ推論タスクへの展開に不可欠である。
先行研究では,LLM応答の誤差を推定する信頼性スコアラを用いて,自己評価LLM-Scorerシステムに対する信頼度推定について検討した。
しかし、ほとんどの手法は単一ステップの出力に重点を置いており、多ステップ推論の課題を見落としている。
本研究では,多段階タスクに対する自己評価手法を拡張し,総合的なスコアリングとステップバイステップスコアという2つの直感的なアプローチをテストする。
2つのマルチステップのベンチマークデータセットを用いて、ステップワイズ評価は、AUC-ROCの最大15%の相対的な増加とともに、潜在的なエラーの検出において総合的なスコアよりも優れていることを示す。
本研究は,自己評価型LLMシステムにおいて,複雑な推論において有意義な信頼度推定が得られ,信頼性が向上し,故障検出のための実用的な枠組みが提供されることを示した。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - Enhancing Uncertainty Estimation in LLMs with Expectation of Aggregated Internal Belief [6.1929548590367505]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおいて顕著な成功を収めてきたが、しばしば過剰な自信を示し、妥当で不正確な答えを生み出している。
この過信は、信頼性の高い不確実性推定と安全なデプロイメントに重大な課題をもたらす。
本研究では,LLMの内部隠蔽状態を利用した自己評価に基づくキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2025-09-01T15:50:10Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration [2.1824579248418017]
本稿では,MLLMの知識境界認識を促進する新しいフレームワークMMBoundaryを提案する。
教師付き微調整に加えて,モデル知識の整合性を高めるために,複数の報酬関数を持つ強化学習ステージを導入する。
経験的な結果から、MMBoundaryはさまざまなドメインデータセットやメトリクスで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-05-29T08:14:40Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T12:52:06Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。