論文の概要: Learning to Ideate for Machine Learning Engineering Agents
- arxiv url: http://arxiv.org/abs/2601.17596v1
- Date: Sat, 24 Jan 2026 21:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.010249
- Title: Learning to Ideate for Machine Learning Engineering Agents
- Title(参考訳): 機械学習工学エージェントのための学習
- Authors: Yunxiang Zhang, Kang Zhou, Zhichao Xu, Kiran Ramnath, Yun Zhou, Sangmin Woo, Haibo Ding, Lin Lee Cheong,
- Abstract要約: MLE-Ideatorは、概念を実装から分離するデュアルエージェントフレームワークである。
本システムでは,実装エージェントが専用Ideatorからの戦略的支援を要求できる。
10のMLEタスクからの1Kのトレーニングサンプルだけで、我々のRLで訓練されたQwen3-8B Ideatorは、訓練されていないタスクと比較して11.5%改善した。
- 参考スコア(独自算出の注目度): 16.81355516530214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing machine learning engineering (MLE) agents struggle to iteratively optimize their implemented algorithms for effectiveness. To address this, we introduce MLE-Ideator, a dual-agent framework that separates ideation from implementation. In our system, an implementation agent can request strategic help from a dedicated Ideator. We show this approach is effective in two ways. First, in a training-free setup, our framework significantly outperforms implementation-only agent baselines on MLE-Bench. Second, we demonstrate that the Ideator can be trained with reinforcement learning (RL) to generate more effective ideas. With only 1K training samples from 10 MLE tasks, our RL-trained Qwen3-8B Ideator achieves an 11.5% relative improvement compared to its untrained counterpart and surpasses Claude Sonnet 3.5. These results highlights a promising path toward training strategic AI systems for scientific discovery.
- Abstract(参考訳): 既存の機械学習エンジニアリング(MLE)エージェントは、実装されたアルゴリズムを効果的に反復的に最適化するのに苦労する。
この問題に対処するため,実装からアイデアを分離するデュアルエージェントフレームワークであるMLE-Ideatorを紹介した。
本システムでは,実装エージェントが専用Ideatorからの戦略的支援を要求できる。
このアプローチは2つの方法で有効であることを示す。
まず,本フレームワークは,MLE-Bench上で実装のみのエージェントベースラインを著しく上回っている。
第二に、Ideatorは強化学習(RL)を用いて学習し、より効果的なアイデアを創出できることを実証する。
10のMLEタスクからの1Kのトレーニングサンプルだけで、我々のRLトレーニングされたQwen3-8B Ideatorは、訓練されていないタスクに比べて11.5%改善され、Claude Sonnet 3.5を上回っている。
これらの結果は、科学的発見のための戦略的AIシステムのトレーニングへの有望な道のりを浮き彫りにしている。
関連論文リスト
- Towards Execution-Grounded Automated AI Research [106.90422658528819]
実行基盤化は役に立つかもしれないが、自動実行が実現可能かどうか、LLMが実行フィードバックから学べるかどうかは不明だ。
我々は、アイデアを実装する自動化エグゼキュータを構築し、その有効性を検証するために大規模な並列GPU実験をローンチする。
本研究では,進化的探索と強化学習という,実行フィードバックから学習する2つの方法を分析する。
論文 参考訳(メタデータ) (2026-01-20T22:35:44Z) - SkyRL-Agent: Efficient RL Training for Multi-turn LLM Agent [63.15417992240217]
本稿では,SkyRL-Agentについて紹介する。
効率的な非同期ディスパッチ、軽量ツールの統合、柔軟なバックエンドの相互運用性を提供する。
我々は、Qwen3-32B (24.4% Pass@1)からトレーニングを受けたソフトウェアエンジニアリングエージェントであるSA-SWE-32Bを、純粋に強化学習で訓練する。
論文 参考訳(メタデータ) (2025-11-20T07:05:19Z) - SEA: Self-Evolution Agent with Step-wise Reward for Computer Use [6.056153018209402]
本稿では,コンピュータ利用のための自己進化エージェント(SEA)を提案し,このエージェントを開発するために,データ生成,強化学習,モデル拡張における創造的手法を提案する。
提案したデータ生成,トレーニング戦略,強化の革新に基づいて,7Bパラメータのみを用いたコンピュータ利用のための自己進化エージェント(SEA)が提供される。
論文 参考訳(メタデータ) (2025-08-06T02:57:22Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - Learning Connectivity-Maximizing Network Configurations [123.01665966032014]
本稿では、専門家からコミュニケーションエージェントを配置することを学ぶ畳み込みニューラルネットワーク(CNN)を用いた教師あり学習手法を提案する。
我々は,標準ライントポロジやリングトポロジ,ランダムに生成された105万件のテストケース,トレーニング中に見えない大規模なチームについて,CNNのパフォーマンスを実証した。
トレーニング後,本システムは10~20名のエージェントの最適化手法よりも2桁高速な接続構成を生成する。
論文 参考訳(メタデータ) (2021-12-14T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。