論文の概要: How Reliable are Confidence Estimators for Large Reasoning Models? A Systematic Benchmark on High-Stakes Domains
- arxiv url: http://arxiv.org/abs/2601.08134v2
- Date: Wed, 21 Jan 2026 18:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 14:56:59.969445
- Title: How Reliable are Confidence Estimators for Large Reasoning Models? A Systematic Benchmark on High-Stakes Domains
- Title(参考訳): 大規模共振モデルに対する信頼度推定器はどの程度信頼度が高いか?
- Authors: Reza Khanmohammadi, Erfan Miahi, Simerjot Kaur, Ivan Brugere, Charese H. Smiley, Kundan Thind, Mohammad M. Ghassemi,
- Abstract要約: 大規模推論モデルの誤校正は、高い領域における信頼性を損なう。
本稿では,6つの LRM から得られた347,496 個の推論トレースの公開リソースである Reasoning Model Confidence Estimation Benchmark (RMCB) を紹介する。
- 参考スコア(独自算出の注目度): 7.845652284569666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The miscalibration of Large Reasoning Models (LRMs) undermines their reliability in high-stakes domains, necessitating methods to accurately estimate the confidence of their long-form, multi-step outputs. To address this gap, we introduce the Reasoning Model Confidence estimation Benchmark (RMCB), a public resource of 347,496 reasoning traces from six popular LRMs across different architectural families. The benchmark is constructed from a diverse suite of datasets spanning high-stakes domains, including clinical, financial, legal, and mathematical reasoning, alongside complex general reasoning benchmarks, with correctness annotations provided for all samples. Using RMCB, we conduct a large-scale empirical evaluation of over ten distinct representation-based methods, spanning sequential, graph-based, and text-based architectures. Our central finding is a persistent trade-off between discrimination (AUROC) and calibration (ECE): text-based encoders achieve the best AUROC (0.672), while structurally-aware models yield the best ECE (0.148), with no single method dominating both. Furthermore, we find that increased architectural complexity does not reliably outperform simpler sequential baselines, suggesting a performance ceiling for methods relying solely on chunk-level hidden states. This work provides the most comprehensive benchmark for this task to date, establishing rigorous baselines and demonstrating the limitations of current representation-based paradigms.
- Abstract(参考訳): LRM(Large Reasoning Models)の誤校正は、その長期的多段階出力の信頼性を正確に推定する手法を必要とする、高い領域における信頼性を損なう。
このギャップに対処するために、アーキテクチャの異なる6つのLRMから347,496件の公開リソースであるReasoning Model Confidence Estimation Benchmark (RMCB)を導入する。
このベンチマークは、臨床、ファイナンシャル、法学、数学的推論を含むハイテイクドメインにまたがる多様なデータセットと、複雑な一般的な推論ベンチマークと、すべてのサンプルに対して正当性アノテーションで構成されている。
RMCBを用いて、逐次的、グラフベース、テキストベースアーキテクチャにまたがる、10以上の異なる表現ベース手法の大規模な実証評価を行う。
我々の中心的な発見は、差別(AUROC)と校正(ECE)の永続的なトレードオフであり、テキストベースのエンコーダは最高のAUROC(0.672)を達成する。
さらに、アーキテクチャの複雑さの増大は、より単純なシーケンシャルなベースラインを確実に上回るものではないことが分かり、チャンクレベルの隠蔽状態のみに依存するメソッドのパフォーマンス天井が示唆された。
この作業は、これまでで最も包括的なベンチマークを提供し、厳密なベースラインを確立し、現在の表現に基づくパラダイムの限界を実証する。
関連論文リスト
- ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - An Empirical Study of SOTA RCA Models: From Oversimplified Benchmarks to Realistic Failures [16.06503310632004]
我々は,4つの広く使用されているベンチマークにおいて,単純なルールベースの手法が最先端(SOTA)モデルに適合するか,あるいは性能に優れていることを示す。
私たちの分析では、スケーラビリティの問題、可観測性の盲点、モデリングボトルネックの3つの一般的な障害パターンを強調しています。
論文 参考訳(メタデータ) (2025-10-06T11:30:03Z) - Rethinking Reward Models for Multi-Domain Test-Time Scaling [91.76069784586149]
従来の作業では、プロセス報酬モデル(PRM)が最終回答のみを評価する結果報酬モデル(ORM)を上回っていると仮定しています。
14の異なる領域にまたがる4つの報酬モデル変種を統一的に評価する。
LLMの自動ラベル付けからラベルノイズを継承し,長い推論軌跡の評価に難渋するPRM方式の段階的スコアリングが原因と考えられる。
論文 参考訳(メタデータ) (2025-10-01T04:21:14Z) - The Flaw of Averages: Quantifying Uniformity of Performance on Benchmarks [32.00464870277127]
本稿では,分布の観点からベンチマークの信頼性について検討し,ベンチマークの調和を導入する。
高調和性は望ましいベンチマーク特性であり、凝集度がモデル間の均一なコンピテンスを反映していることを示している。
正確さとともに調和を報告することを推奨することで、単純なパフォーマンス平均から、より堅牢で分散的に信頼性の高いパフォーマンス測定まで、評価を見直します。
論文 参考訳(メタデータ) (2025-09-30T02:14:30Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T15:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。