論文の概要: Hidden Error Awareness in Chain-of-Thought Reasoning: The Signal Is Diagnostic, Not Causal
- arxiv url: http://arxiv.org/abs/2605.09502v1
- Date: Sun, 10 May 2026 12:26:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.282301
- Title: Hidden Error Awareness in Chain-of-Thought Reasoning: The Signal Is Diagnostic, Not Causal
- Title(参考訳): チェーン・オブ・サート推論における隠れた誤り認識:信号は診断であり、因果関係ではない
- Authors: Aojie Yuan, Zhiyuan Julian Su, Haiyue Zhang, Yi Nian, Yue Zhao,
- Abstract要約: 思考の連鎖は、生成された推論がモデルの内部計算を反映していると仮定する。
この仮定は、特定の測定可能な方法で間違っていることを示す。
モデルは自身の推論エラーを内部的に検出するが、その信頼性を外部に表現する。
- 参考スコア(独自算出の注目度): 6.908637308550535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) prompting assumes that generated reasoning reflects a model's internal computation. We show this assumption is wrong in a specific, measurable way: models internally detect their own reasoning errors but outwardly express confidence in them. A linear probe on hidden states predicts trace correctness with 0.95 AUROC -- from the very first reasoning step (0.79) -- while verbalized confidence for wrong traces is 4.55/5, nearly identical to correct ones (4.87/5). A text-surface classifier achieves only 0.59 on the same data, confirming a 0.20-point gap invisible in the generated text. This hidden error awareness holds across three model families (Qwen, Llama, Phi), 1.5B-72B parameters, and RL-trained reasoning models (DeepSeek-R1, 0.852 AUROC). The natural question is whether this signal can fix the errors it detects. It cannot. Four interventions -- activation steering, probe-guided best-of-N, self-correction, and activation patching -- all fail; patching destroys output coherence entirely. The signal is diagnostic, not causal: a readout of computation quality, not a lever to redirect it. This delineates a boundary for mechanistic interpretability: error representations during reasoning are fundamentally different from the factual knowledge representations that prior work has successfully edited.
- Abstract(参考訳): CoT(Chain-of-Thought)はモデルの内部計算を反映していると仮定する。
この仮定は、特定の測定可能な方法で間違っていて、モデルが内部的に自身の推論エラーを検出しますが、その信頼性を外部に表現しています。
隠れ状態の線形プローブは、第1の推論ステップ (0.79) から 0.95 AUROC でトレースの正しさを予測し、間違ったトレースに対する言語化された信頼度は 4.55/5 であり、正解とほぼ同じ (4.87/5) である。
テキスト表面分類器は、同じデータ上でわずか0.59しか達成せず、生成されたテキストに見えない0.20ポイントのギャップを確認する。
この隠れエラー認識は、3つのモデルファミリー(Qwen, Llama, Phi)、1.5B-72Bパラメータ、RL学習推論モデル(DeepSeek-R1, 0.852 AUROC)にまたがる。
自然な疑問は、この信号が検出したエラーを修正することができるかどうかである。
あり得ない。
4つの介入 -- アクティベーションステアリング、プローブ誘導型ベストオブN、自己補正、アクティベーションパッチ -- がすべて失敗し、パッチがアウトプットコヒーレンスを完全に破壊する。
信号は原因ではなく診断であり、計算品質の読み出しであり、それをリダイレクトするレバーではない。
これは機械的解釈可能性の境界を記述している: 推論中のエラー表現は、以前の作業が正常に編集した事実的知識表現と根本的に異なる。
関連論文リスト
- The Geometry of Forgetting: Temporal Knowledge Drift as an Independent Axis in LLM Representations [50.43168858368539]
大規模言語モデルは自信を持って時代遅れの回答を生成し、既存の方法では検出できない。
これは工学的な失敗ではなく構造的な失敗であり、時間的ドリフトは、幾何的に残留流の方向として、正確性と不確実性の両方に符号化される。
論文 参考訳(メタデータ) (2026-05-09T22:27:31Z) - How LLMs Detect and Correct Their Own Errors: The Role of Internal Confidence Signals [6.467495925520036]
大規模な言語モデルは、自身のエラーを検出し、時には外部からのフィードバックなしに修正することができる。
我々は、決定神経科学からの信頼の2階モデルのレンズを通してこれを調査する。
論文 参考訳(メタデータ) (2026-04-24T06:33:32Z) - Reliable Control-Point Selection for Steering Reasoning in Large Language Models [28.288321095634128]
ステアリングベクトルは、大規模言語モデルにおける推論動作を制御するためのトレーニング不要のメカニズムを提供する。
しかし、有効なベクトルを構成するには、モデルが隠した状態にある真の行動信号を特定する必要がある。
提案手法は,全ての検出された境界が真の行動信号を符号化していることを暗黙的に仮定して,チェーンオブソートトレースのキーワードマッチングによってこれらの挙動を検出する。
本研究では,コンテキスト依存的なトリガ確率を持つ事象として固有の推論動作を形式化する確率モデルを構築し,不安定な境界が操舵信号を弱めることを示す。
論文 参考訳(メタデータ) (2026-04-02T14:48:56Z) - Epistemic Observability in Language Models [0.0]
製造時に高い信頼性を報告できるモデルがあることがわかりました。
正式な仮定では、これは能力ギャップではなく観察的なギャップである。
我々は,計算副産物を輸出することで不合理性から逃れるテンソルインタフェースを構築した。
論文 参考訳(メタデータ) (2026-03-20T21:59:34Z) - The Hypocrisy Gap: Quantifying Divergence Between Internal Belief and Chain-of-Thought Explanation via Sparse Autoencoders [0.0]
モデルの内部推論と最終生成との相違を定量化するために、偽犯罪ギャップを導入する。
数学的に、スパース線形プローブによって導出された内的真理信念を、潜在空間における最終的な生成軌跡と比較することにより、モデルが不誠実な振る舞いをする傾向を定量化し、検出する。
論文 参考訳(メタデータ) (2026-01-14T00:40:40Z) - Probing for Arithmetic Errors in Language Models [86.8227317662622]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。
単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。
モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文 参考訳(メタデータ) (2025-07-16T16:27:50Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。