論文の概要: AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering
- arxiv url: http://arxiv.org/abs/2602.07906v1
- Date: Sun, 08 Feb 2026 10:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.865751
- Title: AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering
- Title(参考訳): AceGRPO: 自律機械学習エンジニアリングのための適応型カリキュラム強化グループ相対ポリシー最適化
- Authors: Yuzhu Cai, Zexi Liu, Xinyu Zhu, Cheng Wang, Jiaao Chen, Hanrui Wang, Wei-Chen Wang, Di Jin, Siheng Chen,
- Abstract要約: AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
- 参考スコア(独自算出の注目度): 52.67783579040657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous Machine Learning Engineering (MLE) requires agents to perform sustained, iterative optimization over long horizons. While recent LLM-based agents show promise, current prompt-based agents for MLE suffer from behavioral stagnation due to frozen parameters. Although Reinforcement Learning (RL) offers a remedy, applying it to MLE is hindered by prohibitive execution latency and inefficient data selection. Recognizing these challenges, we propose AceGRPO with two core components: (1) Evolving Data Buffer that continuously repurposes execution traces into reusable training tasks, and (2) Adaptive Sampling guided by a Learnability Potential function, which dynamically prioritizes tasks at the agent's learning frontier to maximize learning efficiency. Leveraging AceGRPO, our trained Ace-30B model achieves a 100% valid submission rate on MLE-Bench-Lite, approaches the performance of proprietary frontier models, and outperforms larger open-source baselines (e.g., DeepSeek-V3.2), demonstrating robust capability for sustained iterative optimization. Code is available at https://github.com/yuzhu-cai/AceGRPO.
- Abstract(参考訳): 自律機械学習エンジニアリング(MLE)では、エージェントが長期にわたって持続的で反復的な最適化を行う必要がある。
最近のLSMベースのエージェントは有望であるが、MLEの現在のプロンプトベースのエージェントは凍結パラメータによる行動の停滞に悩まされている。
Reinforcement Learning (RL) は治療を提供するが、MLEに適用することは、実行の禁止と非効率なデータ選択によって妨げられる。
これらの課題を認識し,(1)再利用可能なトレーニングタスクに実行トレースを継続的に再利用するデータバッファの進化,(2)学習可能性関数によって誘導される適応サンプリング,そして,エージェントの学習フロンティアにおけるタスクを動的に優先順位付けして学習効率を最大化する。
トレーニングされたAce-30Bモデルを利用して、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースライン(例:DeepSeek-V3.2)を上回り、継続的な反復最適化のための堅牢な能力を示す。
コードはhttps://github.com/yuzhu-cai/AceGRPO.comで入手できる。
関連論文リスト
- ATLAS : Adaptive Self-Evolutionary Research Agent with Task-Distributed Multi-LLM Supporters [6.13905106667213]
ATLASは、軽量な研究エージェントを反復的に開発するタスク分散フレームワークである。
我々のコアアルゴリズムであるEvolving Direct Preference Optimization (EvoDPO)は、位相インデックス付き参照ポリシーを適応的に更新する。
その結果,ATLASは静的単一エージェントベースラインの安定性と性能を向上させることがわかった。
論文 参考訳(メタデータ) (2026-02-02T19:23:33Z) - Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization [72.20212909644017]
Deliberate Practice Policy Optimization (DPPO) はメタ認知型メタループのトレーニングフレームワークである。
DPPOは教師付き微調整(能力拡張)と強化学習(技能向上)の交互に行う
実証的には、DPPO(Pelican-VL 1.0)で視覚言語を具現化したモデルをトレーニングすると、ベースモデルよりも20.3%パフォーマンスが向上する。
私たちはモデルとコードをオープンソースにして、データとリソースのボトルネックを軽減する最初の体系的なフレームワークを提供しています。
論文 参考訳(メタデータ) (2025-11-20T17:58:04Z) - Training-Free Group Relative Policy Optimization [34.73950078782136]
我々は,Large Language Model (LLM) エージェントが,経験的知識を先行するトークンとして学習することで,出力分布に類似した効果を得られることを論じる。
我々は,LLMエージェントの性能をパラメータ更新なしで向上する,費用対効果の高いソリューションであるTraining-Free Group Relative Policy Optimization (Training-Free GRPO)を提案する。
数学的推論とWeb検索タスクの実験により、DeepSeek-V3.1-Terminusに適用されたトレーニングフリーGRPOは、ドメイン外のパフォーマンスを大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-10-09T13:18:17Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。