論文の概要: To Think or Not to Think: The Hidden Cost of Meta-Training with Excessive CoT Examples
- arxiv url: http://arxiv.org/abs/2512.05318v1
- Date: Thu, 04 Dec 2025 23:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.840045
- Title: To Think or Not to Think: The Hidden Cost of Meta-Training with Excessive CoT Examples
- Title(参考訳): 考えるか考えるべきか:CoTの過剰な例によるメタトレーニングの隠れたコスト
- Authors: Vignesh Kothapalli, Ata Fatahibaarzi, Hamed Firooz, Maziar Sanjabi,
- Abstract要約: CoT(Chain-of-Thought)とICL(Little-shot In-Context Learning)の併用により、大規模言語モデル(LLM)において重要な推論機能が解放された。
この問題をCoT-ICL Labフレームワークを用いて制御した環境で研究する。
そこで我々はメタトレーニング手法を提案し,新しい抽象的推論タスクをコンテキスト内で学習する。
- 参考スコア(独自算出の注目度): 20.13091170167426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) prompting combined with few-shot in-context learning (ICL) has unlocked significant reasoning capabilities in large language models (LLMs). However, ICL with CoT examples is ineffective on novel tasks when the pre-training knowledge is insufficient. We study this problem in a controlled setting using the CoT-ICL Lab framework, and propose meta-training techniques to learn novel abstract reasoning tasks in-context. Although CoT examples facilitate reasoning, we noticed that their excessive inclusion during meta-training degrades performance when CoT supervision is limited. To mitigate such behavior, we propose CoT-Recipe, a formal approach to modulate the mix of CoT and non-CoT examples in meta-training sequences. We demonstrate that careful modulation via CoT-Recipe can increase the accuracy of transformers on novel tasks by up to 300% even when there are no CoT examples available in-context. We confirm the broader effectiveness of these techniques by applying them to pretrained LLMs (Qwen2.5 series) for symbolic reasoning tasks and observing gains of up to 130% in accuracy.
- Abstract(参考訳): CoT(Chain-of-Thought)は、数発のインコンテキスト学習(ICL)と組み合わせることで、大規模言語モデル(LLM)において重要な推論機能を解放した。
しかし、ICLとCoTの例は、事前学習の知識が不十分な場合、新しいタスクでは効果がない。
本稿では,この問題をCoT-ICL Labフレームワークを用いた制御環境で研究し,メタ学習手法を提案する。
CoTの例は推論を容易にするが,メタトレーニングにおける過剰な包摂は,CoTの監督が制限された場合に性能を低下させることがわかった。
このような行動を緩和するために,メタトレーニングシーケンスにおけるCoTと非CoTの混合を修飾するための公式なアプローチであるCoT-Recipeを提案する。
我々は,CoT-Recipeを用いた注意変調により,CoTの例がなくても,新規タスクにおけるトランスフォーマーの精度を最大300%向上できることを実証した。
我々は,これらの手法のより広範な有効性を確認するために,事前訓練されたLLM (Qwen2.5 series) に適用し,最大130%の精度の利得を観測した。
関連論文リスト
- AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning [30.265984245328124]
Chain-of-Thoughtは、すべてのクエリに対する長い推論ステップを無差別に生成する。
AdaCoT(Adaptive Chain-of-Thought)は、LLMがCoTを呼び出すタイミングを適応的に決定できる新しいフレームワークである。
重要な技術的貢献はSLM(Selective Loss Masking)であり、決定境界崩壊の防止を目的としている。
論文 参考訳(メタデータ) (2025-05-17T08:27:00Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - Stress Testing Chain-of-Thought Prompting for Large Language Models [0.16317061277456998]
本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性について検討する。
各種タスクにおけるGPT-3の性能に及ぼすCoT次数,CoT値,CoT演算子の影響を解析した。
論文 参考訳(メタデータ) (2023-09-28T17:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。