論文の概要: Do Models Know Why They Changed Their Mind? Interpretability and Faithfulness of Chain-of-Thought Under Knowledge Conflict
- arxiv url: http://arxiv.org/abs/2605.27773v1
- Date: Tue, 26 May 2026 23:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.609545
- Title: Do Models Know Why They Changed Their Mind? Interpretability and Faithfulness of Chain-of-Thought Under Knowledge Conflict
- Title(参考訳): モデルは、なぜ心を変えたのかを知っていますか? : 知識紛争下におけるチェーン・オブ・サードの解釈可能性と信条性
- Authors: Pruthvinath Jeripity Venkata,
- Abstract要約: 言語モデルがその訓練知識と矛盾する文書を見た場合、その文書に従うか、自分自身を信頼するかを選択する必要がある。
CoTの推論は、反対の判断に対して非常に安定しています。
しかし、自己評価の自信はかすかなシグナルを持っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When a language model sees a document contradicting its training knowledge, it must choose: follow the document or trust itself. Prior work proved this choice depends on how well-known the fact is. We ask: does the model's chain-of-thought (CoT) reasoning faithfully report this mechanism? We introduce introspective faithfulness and test it across 200 questions, 8 models, and 4 prompt conditions. We find CoT reasoning is highly stable across opposite decisions: flip pairs retain 96% of same-answer similarity (d=0.34; confirmed by ROUGE-L, d=0.45). Yet self-rated confidence carries a faint genuine signal: for obscure facts where entity fame is uninformative, confidence still predicts decisions (p<0.001) and tracks item-level knowledge (r=0.134). GPT-4o is the only model with statistically reliable reasoning-decision coupling. Claude Sonnet 4.6 shows the widest confidence range (SD=1.39) but near-zero pooled correlation because the confidence-decision relationship reverses between conditions; a temperature ablation confirms this is model-specific. Internal thinking tokens show greater decision-sensitivity than user-facing CoT (p=0.033). CoT decomposes into a decision-invariant knowledge display (~96%) and a thin confidence layer with weak but real signal. For monitoring: read confidence, not the argument.
- Abstract(参考訳): 言語モデルがそのトレーニングの知識と矛盾するドキュメントを見ているとき、そのドキュメントに従うか、自分自身を信頼するかを選択する必要があります。
以前の研究では、この選択は事実がどの程度よく知られているかにかかっている。
モデルのチェーン・オブ・思想(CoT)は、このメカニズムを忠実に報告していますか?
イントロスペクティブな忠実さを導入し、200の質問、8のモデル、4のプロンプト条件でテストする。
CoT の推論は、反対の判断に対して非常に安定である: 対の対は、同じ答えの類似性 (d=0.34; ROUGE-L, d=0.45) の 96% を維持している。
しかし、自己評価の信頼は、曖昧な真のシグナルをもたらす: エンティティ名声が非形式的である不明瞭な事実に対して、信頼は依然として決定(p<0.001)を予測し、アイテムレベルの知識(r=0.134)を追跡する。
GPT-4oは統計的に信頼できる推論-決定結合を持つ唯一のモデルである。
Claude Sonnet 4.6は、最も信頼範囲が広い(SD=1.39)が、信頼-決定関係が条件間で逆になるため、ほぼゼロのプール相関を示す。
内部の思考トークンは、ユーザ側のCoTよりも決定感度が高い(p=0.033)。
CoTは決定不変の知識ディスプレイ(約96%)と、弱いが実際の信号を持つ薄い信頼層に分解される。
監視: 議論ではなく、信頼を読むこと。
関連論文リスト
- Understanding and Mitigating Premature Confidence for Better LLM Reasoning [76.16007941549857]
現在の言語モデルからの思考の長い連鎖(CoT)は、しばしば論理的ギャップと不正な跳躍を含んでいる。
このような信号は、モデルの信頼性が推論中にどのように進化するかを示す。
これは、モデルを早期にコミットするのではなく、理由によってモデルの信頼性を更新するように訓練する強化学習の目標です。
論文 参考訳(メタデータ) (2026-05-23T04:42:45Z) - LLMs Show No Signs Of Individuated Metacognition [0.023227405857540805]
20大言語モデルから二項信頼判断を分解する。
信頼性が異なる2つのモデルも性能が異なるかどうかを問う。
いずれの検査領域においても,有意な弁別メタ認知の証拠は見つからない。
論文 参考訳(メタデータ) (2026-05-22T23:54:33Z) - Hidden Error Awareness in Chain-of-Thought Reasoning: The Signal Is Diagnostic, Not Causal [6.908637308550535]
思考の連鎖は、生成された推論がモデルの内部計算を反映していると仮定する。
この仮定は、特定の測定可能な方法で間違っていることを示す。
モデルは自身の推論エラーを内部的に検出するが、その信頼性を外部に表現する。
論文 参考訳(メタデータ) (2026-05-10T12:26:46Z) - FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences [62.52739672949452]
言語モデル(LM)は、ユーザーがアウトプットの誤りを検知し、必要であれば人間の専門家に延期するのに役立つ、信頼性の高い信頼推定を提供する必要がある。
本稿では,相対的信頼度推定法を提案する。そこでは,相互に質問をマッチングし,モデルに信頼度を相対的に判断するよう求める。
各質問を、他の質問に対する「プレイヤー」として扱い、モデルの選好を一致結果として扱うことで、モデルの信頼性選好を信頼スコアに変換するために、Elo評価やBradley-Terryのようなランクアグリゲーション手法を使うことができる。
論文 参考訳(メタデータ) (2025-02-03T07:43:27Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。