論文の概要: ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering
- arxiv url: http://arxiv.org/abs/2505.23723v1
- Date: Thu, 29 May 2025 17:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.059101
- Title: ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering
- Title(参考訳): ML-Agent: 自律機械学習エンジニアリングのためのLLMエージェントの強化
- Authors: Zexi Liu, Jingyi Chai, Xinyu Zhu, Shuo Tang, Rui Ye, Bo Zhang, Lei Bai, Siheng Chen,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、自律機械学習(ML)エンジニアリングの開発を著しく進歩させてきた。
LLMエージェントがオンライン強化学習(RL)を用いてMLタスクのインタラクティブな実験を通して学習する学習型エージェントMLのパラダイムに注目した。
本稿では,探索強化ファインチューニング,ステップワイドRL,エージェントML固有の報酬モジュールという,3つの重要な要素を持つエージェントMLトレーニングフレームワークを提案する。
7BサイズのML-Agentは、わずか9つのMLタスクでトレーニングされているにも関わらず、671BサイズのDeepSeek-Rよりも優れています。
- 参考スコア(独自算出の注目度): 38.14868743029147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of large language model (LLM)-based agents has significantly advanced the development of autonomous machine learning (ML) engineering. However, most existing approaches rely heavily on manual prompt engineering, failing to adapt and optimize based on diverse experimental experiences. Focusing on this, for the first time, we explore the paradigm of learning-based agentic ML, where an LLM agent learns through interactive experimentation on ML tasks using online reinforcement learning (RL). To realize this, we propose a novel agentic ML training framework with three key components: (1) exploration-enriched fine-tuning, which enables LLM agents to generate diverse actions for enhanced RL exploration; (2) step-wise RL, which enables training on a single action step, accelerating experience collection and improving training efficiency; (3) an agentic ML-specific reward module, which unifies varied ML feedback signals into consistent rewards for RL optimization. Leveraging this framework, we train ML-Agent, driven by a 7B-sized Qwen-2.5 LLM for autonomous ML. Remarkably, despite being trained on merely 9 ML tasks, our 7B-sized ML-Agent outperforms the 671B-sized DeepSeek-R1 agent. Furthermore, it achieves continuous performance improvements and demonstrates exceptional cross-task generalization capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントの出現は、自律機械学習(ML)工学の発展を著しく前進させた。
しかし、既存のアプローチのほとんどは手動のプロンプトエンジニアリングに大きく依存しており、多様な実験経験に基づいて適応と最適化を怠っている。
これに着目し,LLMエージェントがオンライン強化学習(RL)を用いて,MLタスクの対話的実験を通じて学習する学習型エージェントMLのパラダイムを初めて探求する。
これを実現するために,(1)LLMエージェントがRL探索の強化のために多様なアクションを生成できる探索強化ファインチューニング,(2)単一アクションステップでのトレーニングを可能にするステップワイズRL,(3)RL最適化のために多様なMLフィードバック信号を一貫した報酬に統一するエージェントML固有報酬モジュールを提案する。
このフレームワークを活用して、自律MLのための7BサイズのQwen-2.5 LLMによって駆動されるML-Agentをトレーニングする。
注目すべきは、たった9つのMLタスクでトレーニングされているにも関わらず、7BサイズのML-Agentは671BサイズのDeepSeek-R1エージェントよりも優れています。
さらに、継続的なパフォーマンス向上を実現し、例外的なクロスタスクの一般化機能を示す。
関連論文リスト
- Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - MLZero: A Multi-Agent System for End-to-end Machine Learning Automation [48.716299953336346]
MLZeroはLarge Language Models(LLM)を利用した新しいマルチエージェントフレームワークである。
認知認識モジュールが最初に使用され、生のマルチモーダル入力を知覚コンテキストに変換する。
MLZeroは、MLE-Bench Liteで優れたパフォーマンスを示し、成功率とソリューション品質の両方で競合他社を上回っている。
論文 参考訳(メタデータ) (2025-05-20T05:20:53Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - Offline Training of Language Model Agents with Functions as Learnable Weights [39.88545362699836]
LLM重みを変更することなくLLM(Large Language Models)エージェントを訓練する新しいパラダイムを提案する。
LLMを利用してエージェントの機能を更新し、ロールバックとアーリーストップという2つの戦略でエージェントトレーニングアルゴリズムを考案するエージェントを開発する。
広範囲な実験により、エージェント訓練パラダイムが代表的LLMエージェントの性能を大幅に改善できることが示される。
論文 参考訳(メタデータ) (2024-02-17T18:31:21Z) - GEVO-ML: Optimizing Machine Learning Code with Evolutionary Computation [6.525197444717069]
GEVO-MLは、最適化の機会を発見し、機械学習カーネルのパフォーマンスをチューニングするためのツールである。
モデルトレーニングと予測の両方のために、GEVO-MLを2つの異なるMLワークロードでデモする。
GEVO-MLはこれらのモデルに大きな改善を加え、モデル精度が2%の緩和で90.43%の性能向上を達成した。
論文 参考訳(メタデータ) (2023-10-16T09:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。