論文の概要: How LLMs Detect and Correct Their Own Errors: The Role of Internal Confidence Signals
- arxiv url: http://arxiv.org/abs/2604.22271v2
- Date: Fri, 01 May 2026 09:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 13:37:10.816017
- Title: How LLMs Detect and Correct Their Own Errors: The Role of Internal Confidence Signals
- Title(参考訳): LLMが自身のエラーを検知し、修正する方法:内部信頼信号の役割
- Authors: Dharshan Kumaran, Viorica Patraucean, Simon Osindero, Petar Veličković, Nathaniel Daw,
- Abstract要約: 大規模な言語モデルは、自身のエラーを検出し、時には外部からのフィードバックなしに修正することができる。
我々は、決定神経科学からの信頼の2階モデルのレンズを通してこれを調査する。
- 参考スコア(独自算出の注目度): 6.467495925520036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can detect their own errors and sometimes correct them without external feedback, but the underlying mechanisms remain unknown. We investigate this through the lens of second-order models of confidence from decision neuroscience. In a first-order system, confidence derives from the generation signal itself and is therefore maximal for the chosen response, precluding error detection. Second-order models posit a partially independent evaluative signal that can disagree with the committed response, providing the basis for error detection. Kumaran et al. (2026) showed that LLMs cache a confidence representation at a token immediately following the answer (i.e. post-answer newline: PANL) -- that causally drives verbal confidence and dissociates from log-probabilities. Here we test whether this PANL signal extends beyond confidence to support error detection and self-correction. Here we test whether this signal supports error detection and self-correction, deriving predictions from the second-order framework. Using a verify-then-correct paradigm, we show that: (i) verbal confidence predicts error detection far beyond token log-probabilities, ruling out a first-order account; (ii) PANL activations predict error detection beyond verbal confidence itself; and (iii) PANL predicts which errors the model can correct -- where all behavioural signals fail. Causal interventions confirm that PANL signals rescue error detection behavior when answer information is corrupted. All findings replicate across models (Gemma 3 27B and Qwen 2.5 7B) and tasks (TriviaQA and MNLI). These results reveal that LLMs naturally implement a second-order confidence architecture whose internal evaluative signal encodes not only whether an answer is likely wrong but whether the model has the knowledge to fix it.
- Abstract(参考訳): 大規模な言語モデルは、自身のエラーを検出し、時には外部からのフィードバックなしに修正することができるが、基礎となるメカニズムはいまだ不明である。
我々は、決定神経科学からの信頼の2階モデルのレンズを通してこれを調査する。
1次システムでは、信頼度は生成信号自体から導出され、したがってエラー検出を先立って選択された応答に対して最大となる。
2階モデルは、部分的に独立した評価信号を示し、コミットされた応答に反し、エラー検出の基盤を提供する。
Kumaran et al (2026) は、LLMが回答の直後のトークン(すなわち、回答後ニューライン:PANL)で信頼表現をキャッシュし、言語的信頼を因果的に推進し、対数確率から解離することを示した。
ここでは、このPANL信号が信頼を超えてエラー検出と自己補正をサポートするかどうかを検証する。
ここでは、この信号がエラー検出および自己補正をサポートするかどうかを検証し、第2次フレームワークからの予測を導出する。
検証-then-correct パラダイムを用いることで、次のように示します。
i) 動詞の信頼度は、トークンログの確率をはるかに超えてエラー検出を予測し、一階の口座を除外する。
(二)PANLアクティベーションは、言語的信頼そのものを超えた誤り検出を予測し、
(iii)PANLはモデルがどのエラーを修正できるかを予測します。
因果的介入により、PANLは回答情報が破損した場合の救難エラー検出行動を通知する。
全ての結果は、モデル(Gemma 3 27B, Qwen 2.5 7B)とタスク(TriviaQA, MNLI)で再現される。
これらの結果から, LLMは内部評価信号が解答が誤りであるかどうかだけでなく, モデルに修正の知識があるかどうかを符号化する二階信頼アーキテクチャを自然に実装していることが明らかとなった。
関連論文リスト
- Closing the Confidence-Faithfulness Gap in Large Language Models [3.122242683664973]
大規模言語モデルは、実際の精度から大きく切り離された信頼スコアを言語化する。
本稿では,言語的信頼度に関する機械論的解釈可能性分析について述べる。
本稿では,モデルの内部精度推定値を読み取る2段階適応型ステアリングパイプラインを導入する。
論文 参考訳(メタデータ) (2026-03-26T05:42:04Z) - Decoding the Critique Mechanism in Large Reasoning Models [50.821607345799386]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。
中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。
チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文 参考訳(メタデータ) (2026-03-17T10:03:30Z) - Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - Probabilistic Soundness Guarantees in LLM Reasoning Chains [37.440902632372904]
ARES(Autoregressive Reasoning Entailment Stability)は、事前に検証された前提のみに基づいて、各推論ステップを評価する確率的フレームワークである。
ARESは4つのベンチマークで最先端のパフォーマンスを達成し、非常に長い合成推論チェーン上で優れた堅牢性を示す。
論文 参考訳(メタデータ) (2025-07-17T09:40:56Z) - Probing for Arithmetic Errors in Language Models [86.8227317662622]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。
単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。
モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文 参考訳(メタデータ) (2025-07-16T16:27:50Z) - Too Consistent to Detect: A Study of Self-Consistent Errors in LLMs [87.79350168490475]
本研究は, 自己整合誤差を正式に定義し, 主流検出手法の評価を行う。
4種類の検出方法は全て、自己整合性エラーを検出するのにかなり苦労している。
自己整合性誤差がLLM間でしばしば異なるという観測により、我々は単純で効果的なクロスモデルプローブを提案する。
論文 参考訳(メタデータ) (2025-05-23T09:18:56Z) - Improving Label Error Detection and Elimination with Uncertainty Quantification [5.184615738004059]
我々は不確実な量子化に基づくラベル誤り検出(UQ-LED)のための新しいモデル認識アルゴリズムを開発した。
我々のUQ-LEDアルゴリズムは、ラベルエラーの同定において最先端の信頼性学習より優れている。
本稿では,現実的なクラス依存ラベルエラーを合成的に生成する手法を提案する。
論文 参考訳(メタデータ) (2024-05-15T15:17:52Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。