論文の概要: Unveiling the Mechanisms of Explicit CoT Training: How Chain-of-Thought Enhances Reasoning Generalization
- arxiv url: http://arxiv.org/abs/2502.04667v1
- Date: Fri, 07 Feb 2025 05:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:53.914261
- Title: Unveiling the Mechanisms of Explicit CoT Training: How Chain-of-Thought Enhances Reasoning Generalization
- Title(参考訳): 明示的CoTトレーニングのメカニズムの解明 : チェーン・オブ・ソートが一般化をいかに促すか
- Authors: Xinhao Yao, Ruifeng Ren, Yun Liao, Yong Liu,
- Abstract要約: 高品質なChain-of-Thought(CoT)アノテーションを用いた大規模言語モデルのトレーニングが広く採用されている。
我々は,CoT を用いたトレーニングにより推論の一般化が著しく改善され,ID とout-of-distriion (OOD) の両方のシナリオに拡張され,収束のスピードが向上することを示した。
本研究は, 明示的CoTトレーニングの基盤となるメカニズムを解明し, 堅牢な一般化を実現するため, LLMのチューニング戦略に対する重要な洞察を提供するものである。
- 参考スコア(独自算出の注目度): 9.191236388401226
- License:
- Abstract: Training large language models (LLMs) with high-quality Chain-of-Thought (CoT) annotations has become a widely adopted strategy due to its significant enhancement of reasoning capabilities. To fully comprehend this approach, two questions naturally arise: (Q1) What advantages does training with CoT offer compared to training without CoT? (Q2) If there are advantages, what are the underlying mechanisms of explicit CoT training? Analyzing the advantages and mechanisms of CoT training is challenging due to the many factors involved. To address this, we conduct a detailed analysis using clear and controllable data distributions and, for the first time, reveal that CoT training offers the following advantages: (1) Training with CoT markedly improves reasoning generalization, extending it from in-distribution (ID) to both ID and out-of-distribution (OOD) scenarios, while also speeding up convergence; (2) Even when training with CoT includes a certain range of erroneous reasoning steps, it still enables the model to learn reasoning patterns, leading to systematic generalization. We further explore the underlying mechanisms from a circuit perspective: (1) The data distribution (e.g., ratio $\lambda$ and pattern) plays a crucial role in influencing the model's systematic generalization; (2) CoT training (with two-hop facts) internalizes reasoning into a two-stage generalizing circuit, where the number of stages corresponds to the explicit reasoning steps during training. Our findings elucidate the mechanisms underlying explicit CoT training and offer critical insights into tuning strategies for LLMs to achieve robust generalization.
- Abstract(参考訳): 高品質なChain-of-Thought(CoT)アノテーションを用いた大規模言語モデル(LLM)のトレーニングは、推論能力の大幅な向上により、広く採用されている戦略となっている。
このアプローチを完全に理解するために,2つの疑問が自然に生じている。 (Q1) CoTを使用したトレーニングは,CoTなしのトレーニングと比較して,どのようなメリットがあるのだろうか?
(Q2)
もし利点があるなら、明示的なCoTトレーニングの基盤となるメカニズムは何ですか?
CoTトレーニングの利点とメカニズムを分析することは、多くの要因があるため難しい。
1)CoTを用いたトレーニングは、推論の一般化を著しく改善し、IDとアウト・オブ・ディストリビューション(OOD)の両方のシナリオに拡張すると同時に、収束を加速する。(2)CoTを用いたトレーニングは、一定の範囲の誤った推論ステップを含む場合でも、モデルが推論パターンを学習し、体系的な一般化につながる。
1)データ分布(例, 比$\lambda$, パターン)はモデルの体系的一般化に影響を与える重要な役割を担い、(2)CoTトレーニング(2つのホップ事実を持つ)は推論を2段階の一般化回路に内部化し、段階の数はトレーニング中の明示的な推論ステップに対応する。
本研究は, 明示的CoTトレーニングの基盤となるメカニズムを解明し, 堅牢な一般化を実現するため, LLMのチューニング戦略に対する重要な洞察を提供するものである。
関連論文リスト
- Demystifying Long Chain-of-Thought Reasoning in LLMs [46.352406501403465]
ロングチェーン・オブ・シント(CoT)は、バックトラックやエラー修正のような戦略を可能にする。
強化学習(Reinforcement Learning, RL)は、これらの能力を開発する上で重要な方法である。
モデルが長いCoT軌道を生成できる重要な要素を同定する。
論文 参考訳(メタデータ) (2025-02-05T17:13:32Z) - Rethinking Chain-of-Thought from the Perspective of Self-Training [10.722453877596998]
思考の連鎖(CoT)推論はLLMの潜在能力を活性化するための効果的なアプローチとして現れている。
推論性能を改善するための新しいCoTフレームワークを提案する。
本フレームワークは,初期推論プロセスを最適化するタスク固有のプロンプトモジュールと,動的に推論プロセスを洗練させる適応推論モジュールの2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-12-14T13:12:50Z) - RL-STaR: Theoretical Analysis of Reinforcement Learning Frameworks for Self-Taught Reasoner [2.779063752888881]
自己学習推論(STaR)フレームワークは、強化学習を使用して推論ステップを自動的に生成する。
STaRとその変種は経験的成功を示しているが、これらの改善を説明する理論的基盤は欠如している。
この研究は、CoT推論とSTaRにおける強化学習の有効性を理解するための理論的枠組みを提供する。
論文 参考訳(メタデータ) (2024-10-31T13:17:53Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - ICL-TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
私たちは、経験的に強いアプローチを原則化されたフレームワークに統合することで、このギャップを埋めます。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。
本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T04:07:13Z) - The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。