論文の概要: Synthetic Sandbox for Training Machine Learning Engineering Agents
- arxiv url: http://arxiv.org/abs/2604.04872v1
- Date: Mon, 06 Apr 2026 17:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.305565
- Title: Synthetic Sandbox for Training Machine Learning Engineering Agents
- Title(参考訳): 機械学習工学エージェントの訓練用合成サンドボックス
- Authors: Yuhang Zhou, Lizhu Zhang, Yifan Wu, Jiayi Liu, Xiangjun Fan, Zhuokai Zhao, Hong Yan,
- Abstract要約: SandMLEは、少数のシードタスクから検証可能な合成MLE環境を生成するマルチエージェントフレームワークである。
我々は,SandMLEが13回以上実行時間を短縮し,MLEドメインで初めて大規模かつオン・ポリティクスなRLを実現することを示す。
- 参考スコア(独自算出の注目度): 26.34347159807133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language model agents advance beyond software engineering (SWE) tasks toward machine learning engineering (MLE), verifying agent behavior becomes orders of magnitude more expensive: while SWE tasks can be verified via fast-executing unit tests, MLE verification requires running full ML pipelines -- data preprocessing, model training, and metric evaluation -- on large datasets at each rollout step, rendering trajectory-wise on-policy reinforcement learning (RL) prohibitively slow. Existing approaches retreat to supervised fine-tuning (SFT) or offline proxy rewards, sacrificing the exploration and generalization benefits of on-policy RL. We observe that sandbox data size is the primary source of this bottleneck. Based on this insight, we introduce SandMLE, a multi-agent framework that generates diverse, verifiable synthetic MLE environments from a small number of seed tasks, preserving the structural and technical complexity of real-world problems while constraining datasets to micro-scale (each task is paired with only 50-200 training samples). Through extensive experiments, we show that SandMLE reduces execution time by over 13 times, enabling large-scale, on-policy trajectory-wise RL for the first time in the MLE domain. On MLE-bench-lite, SandMLE yields significant gains over SFT baselines across Qwen3-8B, 14B, and 30B-A3B, with relative medal rate improvements ranging from 20.3% to 66.9%. Furthermore, the trained policy generalizes across unseen agentic scaffolds, achieving up to 32.4% better HumanRank score on MLE-Dojo.
- Abstract(参考訳): 大規模な言語モデルエージェントがソフトウェアエンジニアリング(SWE)タスクを超えて機械学習エンジニアリング(MLE)タスクに進むにつれ、エージェントの動作を検証することは、桁違いに高価になる。
既存のアプローチは、監督された微調整(SFT)やオフラインのプロキシ報酬に後退し、オンプレミスのRLの探索と一般化の利点を犠牲にする。
私たちは、このボトルネックの主な原因はサンドボックスのデータサイズであると考えています。
この知見に基づいて、SandMLEは、少数のシードタスクから多種多様な検証可能な合成MLE環境を生成し、データセットをマイクロスケールに制約しながら、実世界の問題の構造的および技術的複雑さを保存するマルチエージェントフレームワークである(各タスクは、たった50~200のトレーニングサンプルとペアリングされる)。
大規模な実験により、SandMLEは13回以上実行時間を短縮し、MLEドメインで初めて大規模かつオン・ポリティクスなRLを実現する。
MLE-ベンチライトでは、SandMLEはQwen3-8B、14B、30B-A3BでSFTベースラインを大きく上回り、相対的なメダル率は20.3%から66.9%に向上した。
さらに、トレーニングされたポリシーは、見えないエージェントの足場を一般化し、MLE-Dojo上で最大32.4%のHumanRankスコアを達成する。
関連論文リスト
- AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents [23.583947864141162]
EigenDataは階層的なマルチエージェントエンジンで、ツール基底の対話と実行可能なインスタンスごとのチェッカーを合成する。
合成データに基づいて、まずユーザモデルを微調整し、GRPOスタイルのトレーニングを適用するRLレシピを開発する。
以上の結果から,高価なアノテーションを使わずに,複雑なツールの動作をブートストラップするためのスケーラブルな経路が示唆された。
論文 参考訳(メタデータ) (2026-01-30T06:01:23Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - First SFT, Second RL, Third UPT: Continual Improving Multi-Modal LLM Reasoning via Unsupervised Post-Training [37.80193099472551]
MLLMの教師なし後学習のための簡易かつ効果的なフレームワークであるMM-UPTを提案する。
本実験は,Qwen2.5-VL-7Bの推論能力を効果的に向上することを示した。
我々は、MLLMに新しいトレーニングサンプルを合成させる2つの戦略を設計し、我々のフレームワークをデータ・セルフジェネレーション・セッティングに拡張する。
論文 参考訳(メタデータ) (2025-05-28T15:11:16Z) - LaMDAgent: An Autonomous Framework for Post-Training Pipeline Optimization via LLM Agents [3.6117068575553595]
トレーニング後の完全なパイプラインを自律的に構築し、最適化するフレームワークであるLaMDAgentを紹介します。
LaMDAgentは、ツールの使用精度を9.0ポイント向上し、命令追従機能を保持する。
従来の人間主導の探査で見落とされがちな効果的なポストトレーニング戦略を明らかにする。
論文 参考訳(メタデータ) (2025-05-28T04:30:51Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。