論文の概要: To Think or Not to Think: The Hidden Cost of Meta-Training with Excessive CoT Examples
- arxiv url: http://arxiv.org/abs/2512.05318v1
- Date: Thu, 04 Dec 2025 23:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.840045
- Title: To Think or Not to Think: The Hidden Cost of Meta-Training with Excessive CoT Examples
- Title(参考訳): 考えるか考えるべきか:CoTの過剰な例によるメタトレーニングの隠れたコスト
- Authors: Vignesh Kothapalli, Ata Fatahibaarzi, Hamed Firooz, Maziar Sanjabi,
- Abstract要約: CoT(Chain-of-Thought)とICL(Little-shot In-Context Learning)の併用により、大規模言語モデル(LLM)において重要な推論機能が解放された。
この問題をCoT-ICL Labフレームワークを用いて制御した環境で研究する。
そこで我々はメタトレーニング手法を提案し,新しい抽象的推論タスクをコンテキスト内で学習する。
- 参考スコア(独自算出の注目度): 20.13091170167426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) prompting combined with few-shot in-context learning (ICL) has unlocked significant reasoning capabilities in large language models (LLMs). However, ICL with CoT examples is ineffective on novel tasks when the pre-training knowledge is insufficient. We study this problem in a controlled setting using the CoT-ICL Lab framework, and propose meta-training techniques to learn novel abstract reasoning tasks in-context. Although CoT examples facilitate reasoning, we noticed that their excessive inclusion during meta-training degrades performance when CoT supervision is limited. To mitigate such behavior, we propose CoT-Recipe, a formal approach to modulate the mix of CoT and non-CoT examples in meta-training sequences. We demonstrate that careful modulation via CoT-Recipe can increase the accuracy of transformers on novel tasks by up to 300% even when there are no CoT examples available in-context. We confirm the broader effectiveness of these techniques by applying them to pretrained LLMs (Qwen2.5 series) for symbolic reasoning tasks and observing gains of up to 130% in accuracy.
- Abstract(参考訳): CoT(Chain-of-Thought)は、数発のインコンテキスト学習(ICL)と組み合わせることで、大規模言語モデル(LLM)において重要な推論機能を解放した。
しかし、ICLとCoTの例は、事前学習の知識が不十分な場合、新しいタスクでは効果がない。
本稿では,この問題をCoT-ICL Labフレームワークを用いた制御環境で研究し,メタ学習手法を提案する。
CoTの例は推論を容易にするが,メタトレーニングにおける過剰な包摂は,CoTの監督が制限された場合に性能を低下させることがわかった。
このような行動を緩和するために,メタトレーニングシーケンスにおけるCoTと非CoTの混合を修飾するための公式なアプローチであるCoT-Recipeを提案する。
我々は,CoT-Recipeを用いた注意変調により,CoTの例がなくても,新規タスクにおけるトランスフォーマーの精度を最大300%向上できることを実証した。
我々は,これらの手法のより広範な有効性を確認するために,事前訓練されたLLM (Qwen2.5 series) に適用し,最大130%の精度の利得を観測した。
関連論文リスト
- CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning [25.142128256576985]
注釈付きCoTをベースとしたReinforced Fine-Tuningアプローチ,すなわちTheNameを用いたコントラスト学習を提案し,大規模言語モデルの推論性能を向上させる。
提案手法は、利用可能な注釈付きCoTを十分に活用するだけでなく、教師なし学習信号を付加することにより微調整手順を安定化する。
論文 参考訳(メタデータ) (2025-08-21T00:20:47Z) - Learning Composable Chains-of-Thought [57.73731224510169]
我々は大規模言語モデル (LLM) を訓練し, 帰属的推論問題のチェーン・オブ・シント (CoT) トレースを推論する。
我々はCoTデータをラベル付けしていない対象構成課題に対処する際の推論スキルの合成一般化に向けて一歩踏み出した。
アトミックタスク上の"アトミックCoT"モデルをComposable CoTデータでトレーニングし、マルチタスク学習やモデルマージと組み合わせて、ターゲットのコンポジションタスク上でのゼロショットパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2025-05-28T17:51:10Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning [30.265984245328124]
Chain-of-Thoughtは、すべてのクエリに対する長い推論ステップを無差別に生成する。
AdaCoT(Adaptive Chain-of-Thought)は、LLMがCoTを呼び出すタイミングを適応的に決定できる新しいフレームワークである。
重要な技術的貢献はSLM(Selective Loss Masking)であり、決定境界崩壊の防止を目的としている。
論文 参考訳(メタデータ) (2025-05-17T08:27:00Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける「情報ゲイン」を定量化し、障害モードの識別を可能にする。
我々は,おもちゃの算術, GSM8K, PRM800kデータセットに関する広範な実験を通じて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - Stress Testing Chain-of-Thought Prompting for Large Language Models [0.16317061277456998]
本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性について検討する。
各種タスクにおけるGPT-3の性能に及ぼすCoT次数,CoT値,CoT演算子の影響を解析した。
論文 参考訳(メタデータ) (2023-09-28T17:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。