論文の概要: Bidirectional Curriculum Generation: A Multi-Agent Framework for Data-Efficient Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2603.05120v1
- Date: Thu, 05 Mar 2026 12:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.224917
- Title: Bidirectional Curriculum Generation: A Multi-Agent Framework for Data-Efficient Mathematical Reasoning
- Title(参考訳): 双方向カリキュラム生成:データ効率のよい数学的推論のためのマルチエージェントフレームワーク
- Authors: Boren Hu, Xiao Liu, Boci Peng, Xinping Zhao, Xiaoran Shang, Yun Zhu, Lijun Wu,
- Abstract要約: 各トレーニングサンプルの教育的価値を最大化するために,新しい双方向カリキュラム生成フレームワークを導入する。
剛性軌道とは異なり、我々のマルチエージェントエコシステムは適応的な教育を模倣し、閉じたフィードバックループを確立する。
このメカニズムは、モデルが任意の段階で最も効果的なデータのみを消費することを保証します。
- 参考スコア(独自算出の注目度): 16.95900718416944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enhancing mathematical reasoning in Large Language Models typically demands massive datasets, yet data efficiency remains a critical bottleneck. While Curriculum Learning attempts to structure this process, standard unidirectional approaches (simple-to-complex) suffer from inefficient sample utilization: they blindly escalate complexity even when foundational gaps persist, leading to wasted computation on unsolvable problems. To maximize the instructional value of every training sample, we introduce a novel Bidirectional Curriculum Generation framework. Unlike rigid trajectories, our multi-agent ecosystem mimics adaptive pedagogy to establish a closed feedback loop. It dynamically generates data by either complicating problems to challenge the model or, crucially, simplying them to repair specific reasoning failures. This mechanism ensures that the model consumes only the most effective data at any given stage. Grounded in the Optimal Pacing Theorem, our approach optimizes the learning trajectory, significantly outperforming baselines while achieving superior reasoning performance with substantially fewer instruction samples.
- Abstract(参考訳): 大規模言語モデルにおける数学的推論の強化は通常、大量のデータセットを必要とするが、データ効率は依然として重要なボトルネックである。
カリキュラム学習はこのプロセスを構築しようとするが、標準的な一方向のアプローチ(単純から複雑)は非効率なサンプル利用に悩まされる。
各トレーニングサンプルの教育的価値を最大化するために,新しい双方向カリキュラム生成フレームワークを導入する。
剛性軌道とは異なり、我々のマルチエージェントエコシステムは適応的な教育を模倣し、クローズドなフィードバックループを確立する。
モデルに挑戦するために問題を複雑にすることでデータを動的に生成する。
このメカニズムは、モデルが任意の段階で最も効果的なデータのみを消費することを保証します。
提案手法は学習軌跡を最適に最適化し,ベースラインを著しく上回りながら,命令サンプルを著しく少なくして優れた推論性能を実現している。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - Self-Error-Instruct: Generalizing from Errors for LLMs Mathematical Reasoning [42.089912289949154]
本稿では,モデルの弱点に対処し,より一般化された目標学習データを合成するフレームワークであるSelf-Error-Instruct(SEI)を提案する。
具体的には、2つの数学的データセット(GSM8KとMATH)のターゲットモデルを探索し、悪い事例を特定する。
次に、同定されたエラータイプ毎の世代毎にいくつかの悪いケースをサンプリングし、インストラクターモデルに入力し、追加のトレーニングデータを合成する。
論文 参考訳(メタデータ) (2025-05-28T17:02:47Z) - AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。
既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。
本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文 参考訳(メタデータ) (2025-04-07T03:31:57Z) - Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。
近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。
この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文 参考訳(メタデータ) (2023-08-21T07:58:15Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Model-based Offline Imitation Learning with Non-expert Data [7.615595533111191]
本稿では,最適条件と最適条件の両方で収集されたデータセットを活用する,スケーラブルなモデルベースオフライン模倣学習アルゴリズムフレームワークを提案する。
提案手法は, シミュレーションされた連続制御領域上での低データ構造における振舞いクローンよりも優れることを示す。
論文 参考訳(メタデータ) (2022-06-11T13:08:08Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。