論文の概要: AI Scientist via Synthetic Task Scaling
- arxiv url: http://arxiv.org/abs/2603.17216v1
- Date: Tue, 17 Mar 2026 23:43:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.445328
- Title: AI Scientist via Synthetic Task Scaling
- Title(参考訳): 合成タスクスケーリングによるAIサイエンティスト
- Authors: Ziyang Cai, Harkirat Behl,
- Abstract要約: 機械学習エージェントを対象とした新しい合成環境生成パイプラインを提供する。
我々のパイプラインは、SWE-agentフレームワークと互換性のある機械学習の課題を自動的に合成する。
機械学習タスクのベンチマークであるMLGymに取り組む。
- 参考スコア(独自算出の注目度): 2.056976961583532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of AI agents, automatic scientific discovery has become a tenable goal. Many recent works scaffold agentic systems that can perform machine learning research, but don't offer a principled way to train such agents -- and current LLMs often generate plausible-looking but ineffective ideas. To make progress on training agents that can learn from doing, we provide a novel synthetic environment generation pipeline targeting machine learning agents. Our pipeline automatically synthesizes machine learning challenges compatible with the SWE-agent framework, covering topic sampling, dataset proposal, and code generation. The resulting synthetic tasks are 1) grounded in real machine learning datasets, because the proposed datasets are verified against the Huggingface API and are 2) verified for higher quality with a self-debugging loop. To validate the effectiveness of our synthetic tasks, we tackle MLGym, a benchmark for machine learning tasks. From the synthetic tasks, we sample trajectories from a teacher model (GPT-5), then use the trajectories to train a student model (Qwen3-4B and Qwen3-8B). The student models trained with our synthetic tasks achieve improved performance on MLGym, raising the AUP metric by 9% for Qwen3-4B and 12% for Qwen3-8B.
- Abstract(参考訳): AIエージェントの出現により、自動科学的発見は永続的な目標となっている。
最近の多くの研究は、機械学習の研究を実行できるが、そのようなエージェントを訓練する原則的な方法を提供していない。
そこで我々は,機械学習エージェントをターゲットとした,新しい合成環境生成パイプラインを提案する。
我々のパイプラインは、トピックサンプリング、データセットの提案、コード生成など、SWE-agentフレームワークと互換性のある機械学習の課題を自動的に合成する。
結果として生じる合成タスクは
提案したデータセットはHuggingface APIに対して検証され,かつ公開されている。
2) 自己デバッグループを用いて, 高品質の検証を行った。
合成タスクの有効性を検証するために,機械学習タスクのベンチマークであるMLGymに取り組む。
これらの課題から,教師モデル(GPT-5)から軌跡を抽出し,学生モデル(Qwen3-4B,Qwen3-8B)を訓練する。
合成タスクで訓練した学生モデルでは, MLGym の性能が向上し, Qwen3-4B では AUP が9%, Qwen3-8B では 12% 向上した。
関連論文リスト
- AnyTask: an Automated Task and Data Generation Framework for Advancing Sim-to-Real Policy Learning [16.837846476054786]
大規模で多様な、高品質なインタラクションデータは、現実の世界で収集するのに費用がかかる。
我々はAnyTaskという,大規模並列GPUシミュレーションと基礎モデルを組み合わせて多様な操作タスクを設計する自動化フレームワークを提示する。
我々は、生成されたデータに基づいて行動クローニングポリシーを訓練し、シミュレーションで検証し、実際のロボットハードウェアに直接デプロイする。
論文 参考訳(メタデータ) (2025-12-19T17:55:48Z) - Meta-Learning and Synthetic Data for Automated Pretraining and Finetuning [2.657867981416885]
機械学習(ML)における事前訓練モデルの増加は、実践者にとって大きな課題となる。
モデルがスケールするにつれて、実世界のデータへの依存度の増加は、トレーニングのボトルネックとなり、より効率的にデータを活用する必要がある。
この論文はメタラーニングを採用し、機械学習をディープラーニング領域に拡張する。
論文 参考訳(メタデータ) (2025-06-11T12:48:45Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Learning from synthetic data generated with GRADE [0.6982738885923204]
本稿では,ロボット工学研究のための現実的なアニメーション動的環境(GRADE)を作成するためのフレームワークを提案する。
GRADEは、完全なシミュレーション制御、ROS統合、現実物理学をサポートし、高い視覚的忠実度画像と地上真実データを生成するエンジン内にある。
合成データのみを用いてトレーニングしても、同一のアプリケーション領域における実世界の画像によく当てはまることを示す。
論文 参考訳(メタデータ) (2023-05-07T14:13:04Z) - Learning Task Automata for Reinforcement Learning using Hidden Markov
Models [37.69303106863453]
本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,その製品 MDP を部分的に観測可能な MDP として扱い,よく知られた Baum-Welch アルゴリズムを用いて隠れマルコフモデルを学習することで,仕様のオートマトンと環境の MDP からなるモデルである製品 MDP を学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
論文 参考訳(メタデータ) (2022-08-25T02:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。