論文の概要: R&D-Agent: Automating Data-Driven AI Solution Building Through LLM-Powered Automated Research, Development, and Evolution
- arxiv url: http://arxiv.org/abs/2505.14738v1
- Date: Tue, 20 May 2025 06:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.665002
- Title: R&D-Agent: Automating Data-Driven AI Solution Building Through LLM-Powered Automated Research, Development, and Evolution
- Title(参考訳): R&D-Agent: LLMによる自動研究、開発、進化によるデータ駆動型AIソリューション構築の自動化
- Authors: Xu Yang, Xiao Yang, Shikai Fang, Bowen Xian, Yuante Li, Jian Wang, Minrui Xu, Haoran Pan, Xinpeng Hong, Weiqing Liu, Yelong Shen, Weizhu Chen, Jiang Bian,
- Abstract要約: R&D-Agentは反復探索のための二重エージェントフレームワークである。
Researcherエージェントはパフォーマンスフィードバックを使用してアイデアを生成し、Developerエージェントはエラーフィードバックに基づいてコードを洗練する。
R&D-AgentはMLE-Benchで評価され、最高のパフォーマンスの機械学習エンジニアリングエージェントとして登場した。
- 参考スコア(独自算出の注目度): 60.80016554091364
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in AI and ML have transformed data science, yet increasing complexity and expertise requirements continue to hinder progress. While crowdsourcing platforms alleviate some challenges, high-level data science tasks remain labor-intensive and iterative. To overcome these limitations, we introduce R&D-Agent, a dual-agent framework for iterative exploration. The Researcher agent uses performance feedback to generate ideas, while the Developer agent refines code based on error feedback. By enabling multiple parallel exploration traces that merge and enhance one another, R&D-Agent narrows the gap between automated solutions and expert-level performance. Evaluated on MLE-Bench, R&D-Agent emerges as the top-performing machine learning engineering agent, demonstrating its potential to accelerate innovation and improve precision across diverse data science applications. We have open-sourced R&D-Agent on GitHub: https://github.com/microsoft/RD-Agent.
- Abstract(参考訳): AIとMLの最近の進歩はデータサイエンスを変革させたが、複雑さと専門知識の要求は進歩を妨げ続けている。
クラウドソーシングプラットフォームはいくつかの課題を軽減するが、高レベルのデータサイエンスタスクは労働集約的で反復的である。
これらの制限を克服するために、反復探索のための二重エージェントフレームワークであるR&D-Agentを導入する。
Researcherエージェントはパフォーマンスフィードバックを使用してアイデアを生成し、Developerエージェントはエラーフィードバックに基づいてコードを洗練する。
R&D-Agentは、複数の並列探索トレースをマージし、互いに強化することにより、自動化されたソリューションとエキスパートレベルのパフォーマンスのギャップを狭める。
MLE-Benchに基づいて評価されたR&D-Agentは、機械学習エンジニアリングのトップパフォーマンスエージェントとして登場し、イノベーションを加速し、さまざまなデータサイエンスアプリケーションにわたって精度を向上させる可能性を実証している。
我々はGitHubでR&D-Agentをオープンソースにした。
関連論文リスト
- OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problem with Reasoning Large Language Model [2.138587105340617]
運用研究(OR)は資源配分、生産計画、サプライチェーン管理など様々な分野に広く適用されてきた。
従来の手法は専門家に大きく依存しており、コストがかかり開発サイクルが長い。
OR-LLM-Agentは、現実世界のOR問題を解決するためにエンドツーエンドの自動化を可能にする最初のAIエージェントである。
論文 参考訳(メタデータ) (2025-03-13T03:40:50Z) - ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。
Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。
人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:24:45Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。