論文の概要: How Does Unfaithful Reasoning Emerge from Autoregressive Training? A Study of Synthetic Experiments
- arxiv url: http://arxiv.org/abs/2602.01017v1
- Date: Sun, 01 Feb 2026 04:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.531607
- Title: How Does Unfaithful Reasoning Emerge from Autoregressive Training? A Study of Synthetic Experiments
- Title(参考訳): 自己回帰訓練から不誠実な推論はどのように生み出すか : 合成実験による検討
- Authors: Fuxin Wang, Amr Alazali, Yiqiao Zhong,
- Abstract要約: 大型言語モデル(LLM)が生成するチェーン・オブ・シント(CoT)推論は、しばしば不信である。
我々は、忠実なCoT推論を構成するもの、そして自己回帰訓練から不誠実が如何に現れるかを研究する。
トレーニングノイズが臨界しきい値以下である場合にのみ、モデルが基礎となる算術規則に因果的に従うという忠実な推論を学習できることが分かりました。
- 参考スコア(独自算出の注目度): 1.529342790344802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) reasoning generated by large language models (LLMs) is often unfaithful: intermediate steps can be logically inconsistent or fail to reflect the causal relationship leading to the final answer. Despite extensive empirical observations, a fundamental understanding of CoT is lacking--what constitutes faithful CoT reasoning, and how unfaithfulness emerges from autoregressive training. We study these questions using well-controlled synthetic experiments, training small transformers on noisy data to solve modular arithmetic expressions step by step, a task we term Arithmetic Expression Reasoning. We find that models can learn faithful reasoning that causally follows the underlying arithmetic rules, but only when the training noise is below a critical threshold, a phenomenon attributable to simplicity bias. At higher noise levels, training dynamics exhibit a transition from faithful stepwise reasoning to unfaithful skip-step reasoning via an intermediate mixed mode characterized by a transient increase in prediction entropy. Mechanistic analysis reveals that models learn to encode internal uncertainty by resolving inconsistent reasoning steps, which suggests the emergence of implicit self-verification from autoregressive training.
- Abstract(参考訳): 大型言語モデル(LLM)が生成するチェーン・オブ・シント(CoT)推論は、しばしば不誠実である: 中間ステップは論理的に矛盾することがあるか、最終的な答えにつながる因果関係を反映しない。
広範な経験的な観察にもかかわらず、CoTに対する根本的な理解は欠如している。
我々はこれらの質問を、よく制御された合成実験を用いて研究し、雑音の多いデータ上で小さな変圧器を訓練し、モジュラー算術式をステップバイステップで解く。
モデルは、基礎となる算術規則に因果的に従うという忠実な推論を学習できるが、トレーニングノイズが臨界しきい値以下である場合にのみ、単純さのバイアスに起因する現象が生じる。
より高い騒音レベルにおいて、トレーニングダイナミクスは、過渡的な予測エントロピーの増加によって特徴づけられる中間混合モードを介して、忠実なステップワイズ推論から不誠実なスキップステップ推論への移行を示す。
メカニスティック分析は、モデルが一貫性のない推論ステップを解くことによって内部の不確実性を符号化することを学習していることを明らかにし、これは自己回帰訓練による暗黙の自己検証の出現を示唆している。
関連論文リスト
- Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought [64.43689151961054]
有向グラフ到達性問題に対する簡易な2層変圧器のトレーニング力学を理論的に解析する。
分析の結果,連続的思考を用いたトレーニングでは,まずインデックスマッチングロジットが増加し,その後は軽度な仮定の下で拘束されることがわかった。
論文 参考訳(メタデータ) (2025-09-27T15:23:46Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens [14.78605805191225]
中間トークンのセマンティクスが「思考」や「推論トレース」として人間化され、実際にモデル性能にどのように影響するかを考察する。
解のみのベースラインが大幅に改善されているにもかかわらず、完全に正しいトレースで訓練されたモデルは、正しい解に到達すると、いまだに不正な推論トレースを生成する。
論文 参考訳(メタデータ) (2025-05-19T23:29:23Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。