論文の概要: Unveiling the Mechanisms of Explicit CoT Training: How Chain-of-Thought Enhances Reasoning Generalization
- arxiv url: http://arxiv.org/abs/2502.04667v1
- Date: Fri, 07 Feb 2025 05:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 18:29:33.025997
- Title: Unveiling the Mechanisms of Explicit CoT Training: How Chain-of-Thought Enhances Reasoning Generalization
- Title(参考訳): 明示的CoTトレーニングのメカニズムの解明 : チェーン・オブ・ソートが一般化をいかに促すか
- Authors: Xinhao Yao, Ruifeng Ren, Yun Liao, Yong Liu,
- Abstract要約: 高品質なChain-of-Thought(CoT)アノテーションを用いた大規模言語モデルのトレーニングが広く採用されている。
我々は,CoT を用いたトレーニングにより推論の一般化が著しく改善され,ID とout-of-distriion (OOD) の両方のシナリオに拡張され,収束のスピードが向上することを示した。
本研究は, 明示的CoTトレーニングの基盤となるメカニズムを解明し, 堅牢な一般化を実現するため, LLMのチューニング戦略に対する重要な洞察を提供するものである。
- 参考スコア(独自算出の注目度): 9.191236388401226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models (LLMs) with high-quality Chain-of-Thought (CoT) annotations has become a widely adopted strategy due to its significant enhancement of reasoning capabilities. To fully comprehend this approach, two questions naturally arise: (Q1) What advantages does training with CoT offer compared to training without CoT? (Q2) If there are advantages, what are the underlying mechanisms of explicit CoT training? Analyzing the advantages and mechanisms of CoT training is challenging due to the many factors involved. To address this, we conduct a detailed analysis using clear and controllable data distributions and, for the first time, reveal that CoT training offers the following advantages: (1) Training with CoT markedly improves reasoning generalization, extending it from in-distribution (ID) to both ID and out-of-distribution (OOD) scenarios, while also speeding up convergence; (2) Even when training with CoT includes a certain range of erroneous reasoning steps, it still enables the model to learn reasoning patterns, leading to systematic generalization. We further explore the underlying mechanisms from a circuit perspective: (1) The data distribution (e.g., ratio $\lambda$ and pattern) plays a crucial role in influencing the model's systematic generalization; (2) CoT training (with two-hop facts) internalizes reasoning into a two-stage generalizing circuit, where the number of stages corresponds to the explicit reasoning steps during training. Our findings elucidate the mechanisms underlying explicit CoT training and offer critical insights into tuning strategies for LLMs to achieve robust generalization.
- Abstract(参考訳): 高品質なChain-of-Thought(CoT)アノテーションを用いた大規模言語モデル(LLM)のトレーニングは、推論能力の大幅な向上により、広く採用されている戦略となっている。
このアプローチを完全に理解するために,2つの疑問が自然に生じている。 (Q1) CoTを使用したトレーニングは,CoTなしのトレーニングと比較して,どのようなメリットがあるのだろうか?
(Q2)
もし利点があるなら、明示的なCoTトレーニングの基盤となるメカニズムは何ですか?
CoTトレーニングの利点とメカニズムを分析することは、多くの要因があるため難しい。
1)CoTを用いたトレーニングは、推論の一般化を著しく改善し、IDとアウト・オブ・ディストリビューション(OOD)の両方のシナリオに拡張すると同時に、収束を加速する。(2)CoTを用いたトレーニングは、一定の範囲の誤った推論ステップを含む場合でも、モデルが推論パターンを学習し、体系的な一般化につながる。
1)データ分布(例, 比$\lambda$, パターン)はモデルの体系的一般化に影響を与える重要な役割を担い、(2)CoTトレーニング(2つのホップ事実を持つ)は推論を2段階の一般化回路に内部化し、段階の数はトレーニング中の明示的な推論ステップに対応する。
本研究は, 明示的CoTトレーニングの基盤となるメカニズムを解明し, 堅牢な一般化を実現するため, LLMのチューニング戦略に対する重要な洞察を提供するものである。
関連論文リスト
- Chain-of-Thought Prompting for Out-of-Distribution Samples: A Latent-Variable Study [5.236910203359897]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおけるコンテキスト内学習を改善するための強力なテクニックとして登場した。
我々は、CoTの潜在変数フレームワークを拡張し、その振る舞いを2つのオフ・オブ・ディストリビューション(OOD)シナリオで研究する。
実験により, 潜伏変数がトレーニング中に見られるものとよく似ているOODサンプルに対して, CoT推論が効果的に一般化することを示したが, この類似性が低下すると性能が低下する。
論文 参考訳(メタデータ) (2025-04-17T14:59:29Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [39.613595533503144]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおける推論能力を高める能力として広く認識されている。
CoTは、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを示す。
パターンベースICLにおけるCoTの性能を駆動する基本的明示的双対性を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Beyond In-Distribution Success: Scaling Curves of CoT Granularity for Language Model Generalization [35.16980045900664]
変圧器に基づく言語モデル(LM)の展開において、分散シフト下における新しい複合タスクへの一般化が重要である
本研究は、OODの一般化を促進する手段として、Chain-of-Thought (CoT)推論を考察する。
論文 参考訳(メタデータ) (2025-02-25T15:04:17Z) - Demystifying Long Chain-of-Thought Reasoning in LLMs [46.352406501403465]
ロングチェーン・オブ・シント(CoT)は、バックトラックやエラー修正のような戦略を可能にする。
強化学習(Reinforcement Learning, RL)は、これらの能力を開発する上で重要な方法である。
モデルが長いCoT軌道を生成できる重要な要素を同定する。
論文 参考訳(メタデータ) (2025-02-05T17:13:32Z) - Rethinking Chain-of-Thought from the Perspective of Self-Training [10.722453877596998]
思考の連鎖(CoT)推論はLLMの潜在能力を活性化するための効果的なアプローチとして現れている。
推論性能を改善するための新しいCoTフレームワークを提案する。
本フレームワークは,初期推論プロセスを最適化するタスク固有のプロンプトモジュールと,動的に推論プロセスを洗練させる適応推論モジュールの2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-12-14T13:12:50Z) - RL-STaR: Theoretical Analysis of Reinforcement Learning Frameworks for Self-Taught Reasoner [2.779063752888881]
自己学習推論(STaR)フレームワークは、強化学習を使用して推論ステップを自動的に生成する。
STaRとその変種は経験的成功を示しているが、これらの改善を説明する理論的基盤は欠如している。
この研究は、CoT推論とSTaRにおける強化学習の有効性を理解するための理論的枠組みを提供する。
論文 参考訳(メタデータ) (2024-10-31T13:17:53Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。