Fugu-MT 論文翻訳(概要): Decoding Answers Before Chain-of-Thought: Evidence from Pre-CoT Probes and Activation Steering

論文の概要: Decoding Answers Before Chain-of-Thought: Evidence from Pre-CoT Probes and Activation Steering

arxiv url: http://arxiv.org/abs/2603.01437v1
Date: Mon, 02 Mar 2026 04:33:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.678085
Title: Decoding Answers Before Chain-of-Thought: Evidence from Pre-CoT Probes and Activation Steering
Title（参考訳）: チェーン・オブ・ワット前の解答:CoT前プローブとアクティベーションステアリングによる証拠
Authors: Kyle Cox, Darius Kianersi, Adrià Garriga-Alonso,
Abstract要約: CoT(Chain-of- Thought)は、大規模言語モデルにおける推論機能のスケーリングの中心となっている。命令調整モデルがCoTを生成する前に解答を決定する場合が多いことを示す。
参考スコア（独自算出の注目度）: 5.427346259545067
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As chain-of-thought (CoT) has become central to scaling reasoning capabilities in large language models (LLMs), it has also emerged as a promising tool for interpretability, suggesting the opportunity to understand model decisions through verbalized reasoning. However, the utility of CoT toward interpretability depends upon its faithfulness -- whether the model's stated reasoning reflects the underlying decision process. We provide mechanistic evidence that instruction-tuned models often determine their answer before generating CoT. Training linear probes on residual stream activations at the last token before CoT, we can predict the model's final answer with 0.9 AUC on most tasks. We find that these directions are not only predictive, but also causal: steering activations along the probe direction flips model answers in over 50% of cases, significantly exceeding orthogonal baselines. When steering induces incorrect answers, we observe two distinct failure modes: non-entailment (stating correct premises but drawing unsupported conclusions) and confabulation (fabricating false premises). While post-hoc reasoning may be instrumentally useful when the model has a correct pre-CoT belief, these failure modes suggest it can result in undesirable behaviors when reasoning from a false belief.
Abstract（参考訳）: チェーン・オブ・シント(CoT)が大規模言語モデル(LLM)における推論能力のスケーリングの中心となっているため、解釈可能性のための有望なツールとして現れ、言語化された推論を通じてモデル決定を理解する機会を示唆している。しかしながら、解釈可能性に対するCoTの有用性は、モデルが主張する推論が根底にある決定過程を反映しているかに関わらず、その忠実さに依存します。我々は、CoTを生成する前に、命令調整されたモデルが解答を決定することがしばしばあるという機械的証拠を提供する。 CoTの前の最後のトークンで残差ストリーム活性化に関する線形プローブを訓練すると、ほとんどのタスクにおいて0.9AUCでモデルの最終回答を予測することができる。これらの方向は予測的であるだけでなく因果的でもある: プローブ方向に沿った活性化はモデルの解答を50%以上のケースで反転させ、直交基底線をはるかに超える。ステアリングが誤った回答を導き出すと、非エンターメント(正しい前提を立証するが、結論を導出する)と confabulation(誤った前提をファブリケートする)の2つの異なる障害モードが観察される。ポストホック推論は、モデルが正しいプレCoTの信念を持っている場合に有効であるが、これらの失敗モードは、偽の信念から推論するときに望ましくない振る舞いをもたらす可能性があることを示唆している。

関連論文リスト

Temporal Predictors of Outcome in Reasoning Language Models [0.0]
CoT(Chain-of-Thought)パラダイムは、推論のプロキシとしてステップバイステップの合理性の推論を使用する。難しい問題に対して、予測精度の低下は、選択アーティファクトを浮き彫りにする。全体として、我々の結果は、推論モデルでは、成功の自己評価はわずか数トークンで現れる傾向にあることを示唆している。
論文参考訳（メタデータ） (2025-11-03T08:57:18Z)
Reasoning Models Sometimes Output Illegible Chains of Thought [0.0]
結果に基づく強化学習(RL)を用いて学習した言語モデルは、チェーン・オブ・シント(CoT)を用いて推論し、顕著な性能を示した。我々は14の推論モデルにまたがってCoTの正当性を調査し、RLが人間とAIモニタの両方に不利になることが多いことを発見した。モデルでは, 正解を正解(正解部分のみの使用を強制した場合の精度は53%低下)するが, 再サンプリング時の正解率と性能の相関は見つからない。
論文参考訳（メタデータ） (2025-10-31T10:16:35Z)
AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文参考訳（メタデータ） (2025-09-29T04:27:23Z)
Unveiling Confirmation Bias in Chain-of-Thought Reasoning [12.150655660758359]
大型言語モデル(LLM)の推論能力を高めるために、チェーン・オブ・シークレット(CoT)プロンプトが広く採用されている。本研究は認知心理学におけるテキスト確認バイアスのレンズを通してCoTの行動を理解する新しい視点を示す。
論文参考訳（メタデータ） (2025-06-14T01:30:17Z)
Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。以上の結果から, SDE 動態下での反実的推論が可能となった。
論文参考訳（メタデータ） (2025-06-05T16:02:07Z)
A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-05-29T18:55:05Z)
SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文参考訳（メタデータ） (2025-04-07T02:42:07Z)
Chain-of-Probe: Examining the Necessity and Accuracy of CoT Step-by-Step [81.50681925980135]
モデル推論における心の変化を探索する手法を提案する。心的変化のパターンを解析することにより,モデルの推論の正しさを検証した。我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。
論文参考訳（メタデータ） (2024-06-23T15:50:22Z)
Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文参考訳（メタデータ） (2023-07-17T01:08:39Z)
Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文参考訳（メタデータ） (2023-06-09T08:30:51Z)
Logical Satisfiability of Counterfactuals for Faithful Explanations in NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。これは、説明に表される論理述語に基づいて、反実仮説を生成する。そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文参考訳（メタデータ） (2022-05-25T03:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。