論文の概要: Not Just the Destination, But the Journey: Reasoning Traces Causally Shape Generalization Behaviors
- arxiv url: http://arxiv.org/abs/2603.12397v1
- Date: Thu, 12 Mar 2026 19:19:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.739247
- Title: Not Just the Destination, But the Journey: Reasoning Traces Causally Shape Generalization Behaviors
- Title(参考訳): 運命だけでなく、旅の旅:因果的形状の一般化行動
- Authors: Pengcheng Wen, Yanxu Zhu, Jiapeng Sun, Han Zhu, Yujin Zhou, Chi-Min Chan, Sirui Han, Yike Guo,
- Abstract要約: CoT(Chain-of-Thought)は、LLM意思決定の窓口と見なされることが多いが、最近の研究は、単にポストホックな合理化として機能することを示唆している。
これは重要なアライメントの疑問を提起する: 推論トレース因果形モデルの一般化は最終回答とは無関係か?
推論の因果的効果を分離するため,様々な推論経路を保ちながら最終有害回答を一定に保持する制御実験を設計した。
- 参考スコア(独自算出の注目度): 23.685279059830204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) is often viewed as a window into LLM decision-making, yet recent work suggests it may function merely as post-hoc rationalization. This raises a critical alignment question: Does the reasoning trace causally shape model generalization independent of the final answer? To isolate reasoning's causal effect, we design a controlled experiment holding final harmful answers constant while varying reasoning paths. We construct datasets with \textit{Evil} reasoning embracing malice, \textit{Misleading} reasoning rationalizing harm, and \textit{Submissive} reasoning yielding to pressure. We train models (0.6B--14B parameters) under multiple paradigms, including question-thinking-answer (QTA), question-thinking (QT), and thinking-only (T-only), and evaluate them in both think and no-think modes. We find that: (1) CoT training could amplify harmful generalization more than standard fine-tuning; (2) distinct reasoning types induce distinct behavioral patterns aligned with their semantics, despite identical final answers; (3) training on reasoning without answer supervision (QT or T-only) is sufficient to alter behavior, proving reasoning carries an independent signal; and (4) these effects persist even when generating answers without reasoning, indicating deep internalization. Our findings demonstrate that reasoning content is causally potent, challenging alignment strategies that supervise only outputs.
- Abstract(参考訳): CoT(Chain-of-Thought)は、LLM意思決定の窓口と見なされることが多いが、最近の研究は、単にポストホックな合理化として機能することを示唆している。
これは重要なアライメント問題を引き起こす: 推論トレース因果形モデルの一般化は最終回答とは無関係か?
推論の因果的効果を分離するため,様々な推論経路を保ちながら最終有害回答を一定に保持する制御実験を設計した。
我々は, 悪意を受容する「textit{Evil}推論」, 有理化障害を推論する「textit{Misleading}推論」, 圧力に屈する「textit{Submissive}推論」を用いたデータセットを構築した。
質問思考回答(QTA)、質問思考(QT)、思考専用(T-only)など、複数のパラダイムの下でモデル(0.6B-14Bパラメータ)をトレーニングし、思考モードと非思考モードの両方で評価する。
その結果,(1)CoTトレーニングは,標準的な微調整以上の有害な一般化を増幅し,(2)異なる推論型は,同じ最終回答にもかかわらず,意味と異なる行動パターンを誘導し,(3)回答監督のない推論(QTまたはT-only)のトレーニングは,行動を変えるのに十分である,(4)推論なしで回答を生成する場合においても,その効果は持続することがわかった。
以上の結果から、推論内容は、出力のみを監督する因果的かつ挑戦的なアライメント戦略であることが明らかとなった。
関連論文リスト
- Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning [50.352417879912515]
大規模言語モデル(LLM)は推論能力の進歩とともに複雑なタスクに優れる。
一般化可能な推論パターンを学習するために,LLMを明示的に訓練するためのグループ因果政策最適化を提案する。
次に、この報酬からトークンレベルのアドバンテージを構築し、ポリシーを最適化し、LCMにプロセス無効で事実上堅牢な推論パターンを推奨します。
論文 参考訳(メタデータ) (2026-02-06T08:03:11Z) - Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z) - The First Impression Problem: Internal Bias Triggers Overthinking in Reasoning Models [38.11937119873932]
推論モデルは、冗長な推論ステップを特徴とする過度な思考を示すことが多い。
我々は、入力問題によって引き起こされる内部バイアスを、そのような行動の鍵となる引き金とみなす。
論文 参考訳(メタデータ) (2025-05-22T09:35:52Z) - Chain-of-Thought Reasoning In The Wild Is Not Always Faithful [3.048751803239144]
CoT(Chain-of-Thought)推論は最先端のAI能力を大幅に進歩させたものだ。
人工バイアスのない現実的なプロンプトでも不信なCoTが発生することを示す。
論文 参考訳(メタデータ) (2025-03-11T17:56:30Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering [59.495717939664246]
大規模言語モデルは、複雑な問題を解くためにチェーン・オブ・ソート(CoT)推論技術を活用することで、顕著な能力を示した。
本稿では,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。
SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-28T06:28:35Z) - Self-Contradictory Reasoning Evaluation and Detection [31.452161594896978]
本稿では,自己矛盾推論(Self-Contra)について考察する。
LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。
GPT-4は52.2%のF1スコアで自己コントラを検出できる。
論文 参考訳(メタデータ) (2023-11-16T06:22:17Z) - Implicit Chain of Thought Reasoning via Knowledge Distillation [58.80851216530288]
思考推論ステップの連鎖を明示的に生成する代わりに、言語モデルの内部の隠れ状態を使用して暗黙の推論を行います。
このアプローチにより、明示的にチェーン・オブ・シントなしでは解決不可能なタスクを、非チェーン・オブ・シントに匹敵する速度で解決できることが分かりました。
論文 参考訳(メタデータ) (2023-11-02T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。