論文の概要: Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification
- arxiv url: http://arxiv.org/abs/2504.05419v1
- Date: Mon, 07 Apr 2025 18:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:41.048397
- Title: Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification
- Title(参考訳): 正しいタイミングを知る推論モデル - 自己検証のための隠れ状態の探索
- Authors: Anqi Zhang, Yulin Chen, Jane Pan, Chen Zhao, Aurojit Panda, Jinyang Li, He He,
- Abstract要約: 本研究は,仮説モデルが解答正解性に関する情報を隠蔽状態の探索によって符号化するかどうかを考察する。
得られたプローブは、中間回答を高い精度で検証し、高度に校正されたスコアを生成する。
- 参考スコア(独自算出の注目度): 23.190823296729732
- License:
- Abstract: Reasoning models have achieved remarkable performance on tasks like math and logical reasoning thanks to their ability to search during reasoning. However, they still suffer from overthinking, often performing unnecessary reasoning steps even after reaching the correct answer. This raises the question: can models evaluate the correctness of their intermediate answers during reasoning? In this work, we study whether reasoning models encode information about answer correctness through probing the model's hidden states. The resulting probe can verify intermediate answers with high accuracy and produces highly calibrated scores. Additionally, we find models' hidden states encode correctness of future answers, enabling early prediction of the correctness before the intermediate answer is fully formulated. We then use the probe as a verifier to decide whether to exit reasoning at intermediate answers during inference, reducing the number of inference tokens by 24\% without compromising performance. These findings confirm that reasoning models do encode a notion of correctness yet fail to exploit it, revealing substantial untapped potential to enhance their efficiency.
- Abstract(参考訳): 推論モデルは、推論中に検索する能力のおかげで、数学や論理推論のようなタスクにおいて顕著なパフォーマンスを達成した。
しかし、彼らはまだ過度に考え、正しい答えに達した後もしばしば不要な推論ステップを実行している。
モデルは推論中の中間回答の正しさを評価することができるのか?
本研究では,仮説モデルが解答正解に関する情報を隠蔽状態の探索によって符号化するかどうかを考察する。
得られたプローブは、中間回答を高い精度で検証し、高度に校正されたスコアを生成する。
さらに、モデルの隠れ状態が将来の回答の正しさを符号化し、中間回答が完全に定式化される前に、その正しさの早期予測を可能にする。
次に,このプローブを検証器として,推論中の中間回答における推論を終了するかを判定し,性能を損なうことなく,推論トークンの数を24 %削減する。
これらの結果は、推論モデルが正確性の概念を符号化するが、それを利用できないことを示し、その効率を高めるための未解決の可能性を明らかにしている。
関連論文リスト
- Chain-of-Probe: Examining the Necessity and Accuracy of CoT Step-by-Step [81.50681925980135]
モデル推論における心の変化を探索する手法を提案する。
心的変化のパターンを解析することにより,モデルの推論の正しさを検証した。
我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。
論文 参考訳(メタデータ) (2024-06-23T15:50:22Z) - How Ambiguous Are the Rationales for Natural Language Reasoning? A Simple Approach to Handling Rationale Uncertainty [0.9790236766474201]
本研究では,自然言語推論のモデル性能におけるあいまいな有理性の役割について検討する。
そこで本研究では,理論のあいまいさに応じて2つの異なる推論経路を選択するための簡単な方法を提案する。
論文 参考訳(メタデータ) (2024-02-22T07:12:34Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Shortcomings of Top-Down Randomization-Based Sanity Checks for
Evaluations of Deep Neural Network Explanations [67.40641255908443]
モデルランダム化に基づく正当性チェックの限界を,説明書の評価のために同定する。
トップダウンモデルランダム化は、フォワードパスアクティベーションのスケールを高い確率で保存する。
論文 参考訳(メタデータ) (2022-11-22T18:52:38Z) - Measuring and Narrowing the Compositionality Gap in Language Models [116.5228850227024]
モデルがすべてのサブプロブレムに正しく答えられる頻度を計測するが、全体の解は生成しない。
我々は,思考の連鎖をさらに改善する新たな手法である自己認識法を提案する。
論文 参考訳(メタデータ) (2022-10-07T06:50:23Z) - Language Models (Mostly) Know What They Know [10.836210010868932]
言語モデルが自身の主張の有効性を評価し,どの疑問に正しく答えられるかを予測する。
モデルが「P(IK)」を予測できるかどうか,質問に対する「私が知っている」確率を,特定の回答に言及せずに検討する。
論文 参考訳(メタデータ) (2022-07-11T22:59:39Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z) - Robustifying Multi-hop QA through Pseudo-Evidentiality Training [28.584236042324896]
本研究では,正解法を使わずに正しい解答を行うマルチホップ質問応答モデルのバイアス問題について検討する。
そこで本稿では, 正解が正しい証拠によって裏付けられるかどうかを判断し, 明解性を学習するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-07-07T14:15:14Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。