論文の概要: Reasoning Curriculum: Bootstrapping Broad LLM Reasoning from Math
- arxiv url: http://arxiv.org/abs/2510.26143v1
- Date: Thu, 30 Oct 2025 04:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.665009
- Title: Reasoning Curriculum: Bootstrapping Broad LLM Reasoning from Math
- Title(参考訳): Reasoning Curriculum:Bootstrapping Broad LLM Reasoning from Math
- Authors: Bo Pang, Deqian Kong, Silvio Savarese, Caiming Xiong, Yingbo Zhou,
- Abstract要約: Reasoning Curriculumはまず、数学のような事前訓練された整列した領域で推論スキルを付与し、その後、関節RLを介してこれらのスキルを他の領域に適応し、洗練する。
カリキュラムは最小限であり、バックボーンに依存しないため、標準的な検証可能性チェック以外の特別な報酬モデルを必要としない。
- 参考スコア(独自算出の注目度): 79.75335577284747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) can elicit strong reasoning in large language models (LLMs), yet most open efforts focus on math and code. We propose Reasoning Curriculum, a simple two-stage curriculum that first elicits reasoning skills in pretraining-aligned domains such as math, then adapts and refines these skills across other domains via joint RL. Stage 1 performs a brief cold start and then math-only RL with verifiable rewards to develop reasoning skills. Stage 2 runs joint RL on mixed-domain data to transfer and consolidate these skills. The curriculum is minimal and backbone-agnostic, requiring no specialized reward models beyond standard verifiability checks. Evaluated on Qwen3-4B and Llama-3.1-8B over a multi-domain suite, reasoning curriculum yields consistent gains. Ablations and a cognitive-skill analysis indicate that both stages are necessary and that math-first elicitation increases cognitive behaviors important for solving complex problems. Reasoning Curriculum provides a compact, easy-to-adopt recipe for general reasoning.
- Abstract(参考訳): 強化学習(RL)は、大きな言語モデル(LLM)において強い推論を引き出すことができるが、最もオープンな取り組みは数学とコードに焦点を当てている。
本稿では、まず、数学などの事前学習整合領域における推論スキルを取り入れた2段階の簡単なカリキュラムであるReasoning Curriculumを提案し、その後、関節RLを用いてこれらのスキルを他の領域に適応・洗練する。
ステージ1は短いコールドスタートを行い、その後、算術のみのRLで、推論スキルを開発するための検証可能な報酬を与える。
ステージ2は、これらのスキルの転送と統合のために混合ドメインデータ上で共同RLを実行する。
カリキュラムは最小限であり、バックボーンに依存しないため、標準的な検証可能性チェック以外の特別な報酬モデルを必要としない。
マルチドメインスイート上でQwen3-4BとLlama-3.1-8Bで評価され、推論カリキュラムは一貫した利得を得る。
アブレーションと認知スキル分析は、どちらの段階も必要であり、数学第一のエレケーションは複雑な問題を解決する上で重要な認知行動を増加させることを示している。
推論カリキュラム(Reasoning Curriculum)は、一般的な推論のためのコンパクトでわかりやすいレシピを提供する。
関連論文リスト
- Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [52.32193550674408]
強化学習(RL)による言語モデルの推論能力の向上を目指す。
我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。
E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文 参考訳(メタデータ) (2025-06-07T02:41:54Z) - Self-Evolving Curriculum for LLM Reasoning [96.10277986436172]
自己進化カリキュラム(Self-Evolving Curriculum, SEC)は、RLファインチューニングプロセスと並行してカリキュラムポリシーを学習する自動カリキュラム学習手法である。
実験により、SECはモデルの推論能力を大幅に改善し、より困難で配布外のテスト問題へのより良い一般化を可能にした。
論文 参考訳(メタデータ) (2025-05-20T23:17:15Z) - General Intelligence Requires Reward-based Pretraining [14.057301560895505]
大規模言語モデル(LLM)は、実世界の素晴らしいユーティリティを実証している。
しかし、適応的かつ堅牢に推論できる能力は、脆弱なままだ。
我々は3つの重要な方向から知識と推論を解き放つことを提案する。
論文 参考訳(メタデータ) (2025-02-26T18:51:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。