論文の概要: Reasoning about Uncertainty: Do Reasoning Models Know When They Don't Know?
- arxiv url: http://arxiv.org/abs/2506.18183v1
- Date: Sun, 22 Jun 2025 21:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.791523
- Title: Reasoning about Uncertainty: Do Reasoning Models Know When They Don't Know?
- Title(参考訳): 不確実性に関する推論: モデルはいつ知らないかを知るか?
- Authors: Zhiting Mei, Christina Zhang, Tenny Yin, Justin Lidard, Ola Shorinwa, Anirudha Majumdar,
- Abstract要約: 推論言語モデルは、多くの挑戦的なベンチマークで最先端(SOTA)レコードを設定している。
従来の言語モデルと同様に、推論モデルは不正確で確実な応答を生成する傾向があります。
これらのモデルをいつ、どの程度信頼するかを知ることは、現実のアプリケーションにおける推論モデルの安全なデプロイに不可欠である。
- 参考スコア(独自算出の注目度): 7.423494663010787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning language models have set state-of-the-art (SOTA) records on many challenging benchmarks, enabled by multi-step reasoning induced using reinforcement learning. However, like previous language models, reasoning models are prone to generating confident, plausible responses that are incorrect (hallucinations). Knowing when and how much to trust these models is critical to the safe deployment of reasoning models in real-world applications. To this end, we explore uncertainty quantification of reasoning models in this work. Specifically, we ask three fundamental questions: First, are reasoning models well-calibrated? Second, does deeper reasoning improve model calibration? Finally, inspired by humans' innate ability to double-check their thought processes to verify the validity of their answers and their confidence, we ask: can reasoning models improve their calibration by explicitly reasoning about their chain-of-thought traces? We introduce introspective uncertainty quantification (UQ) to explore this direction. In extensive evaluations on SOTA reasoning models across a broad range of benchmarks, we find that reasoning models: (i) are typically overconfident, with self-verbalized confidence estimates often greater than 85% particularly for incorrect responses, (ii) become even more overconfident with deeper reasoning, and (iii) can become better calibrated through introspection (e.g., o3-Mini and DeepSeek R1) but not uniformly (e.g., Claude 3.7 Sonnet becomes more poorly calibrated). Lastly, we conclude with important research directions to design necessary UQ benchmarks and improve the calibration of reasoning models.
- Abstract(参考訳): 推論言語モデルは、強化学習を用いて誘導される多段階推論によって実現される、多くの挑戦的なベンチマークに最先端(SOTA)レコードを設定している。
しかし、従来の言語モデルと同様に、推論モデルは不正確(幻覚)な確実な応答を生成する傾向にある。
これらのモデルをいつ、どの程度信頼するかを知ることは、現実のアプリケーションにおける推論モデルの安全なデプロイに不可欠である。
この目的のために,本研究における推論モデルの不確実性定量化について検討する。
まず、推論モデルはうまく校正されているか?
第二に、より深い推論はモデルのキャリブレーションを改善するか?
最後に、人間が思考過程を二重にチェックし、回答の有効性と自信を検証する能力に触発されて、我々は疑問を呈する: モデル推論は、チェーン・オブ・ソート・トレースを明示的に推論することによって、キャリブレーションを改善することができるのか?
この方向を探索するために、内省的不確実性定量化(UQ)を導入する。
幅広いベンチマークにおけるSOTA推論モデルに関する広範な評価において、その推論モデルを見いだす。
i) 典型的には過信であり、特に誤った反応に対して、自己弁別された信頼度は85%以上であることが多い。
(二)より深い推論でさらに過信され、
(iii)イントロスペクション(例:o3-Mini、DeepSeek R1)により校正が良くなるが、一様ではない(例:Claude 3.7 Sonnet)。
最後に、必要なUQベンチマークを設計し、推論モデルの校正を改善するための重要な研究の方向性を結論付ける。
関連論文リスト
- Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models [103.03315678501546]
Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上します。
テスト時にもっと考えることは、本当により良い推論につながるのでしょうか?
過度に考える”という理由から,新たな思考による初期パフォーマンス改善の一貫したパターンと,それに続く低下を示す。
論文 参考訳(メタデータ) (2025-06-04T17:55:09Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Reasoning Models Better Express Their Confidence [33.72935464539185]
大規模言語モデル(LLM)は、信頼度を正確に伝達できないことが多いため、いつ間違っているのかを判断したり、信頼性を制限したりするのは難しい。
本研究では,CoT推論に係わる推論モデル-LLMが,問題解決だけでなく,その信頼性を正確に表現する上で,優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-05-20T15:19:00Z) - Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification [23.190823296729732]
本研究は,仮説モデルが解答正解性に関する情報を隠蔽状態の探索によって符号化するかどうかを考察する。
得られたプローブは、中間回答を高い精度で検証し、高度に校正されたスコアを生成する。
論文 参考訳(メタデータ) (2025-04-07T18:42:01Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Are DeepSeek R1 And Other Reasoning Models More Faithful? [2.0429566123690455]
我々は,Qwen-2.5,Gemini-2,DeepSeek-V3-Baseの3つの推論モデルを評価する。
MMLU質問に対する解答に、その解答がどう影響するかをモデルで記述できるかどうかを検証する。
推論モデルは、テストされたすべての非推論モデルよりもはるかに確実にそれらに影響を与えるキューを記述する。
論文 参考訳(メタデータ) (2025-01-14T14:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。