論文の概要: R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science
- arxiv url: http://arxiv.org/abs/2505.14738v2
- Date: Wed, 01 Oct 2025 03:21:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 17:16:29.692049
- Title: R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science
- Title(参考訳): R&D-Agent: 自律データサイエンスを目指すLLM-Agentフレームワーク
- Authors: Xu Yang, Xiao Yang, Shikai Fang, Yifei Zhang, Jian Wang, Bowen Xian, Qizheng Li, Jingyuan Li, Minrui Xu, Yuante Li, Haoran Pan, Yuge Zhang, Weiqing Liu, Yelong Shen, Weizhu Chen, Jiang Bian,
- Abstract要約: 高レベルの機械学習エンジニアリングタスクは、労働集約的で反復的である。
機械学習プロセスを形式化する包括的で分離されたフレームワークであるR&D-Agentを紹介します。
R&D-AgentはMLEを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計を原則としてテスト可能なプロセスに変える。
- 参考スコア(独自算出の注目度): 70.1638335489284
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in AI and ML have transformed data science, yet increasing complexity and expertise requirements continue to hinder progress. Although crowd-sourcing platforms alleviate some challenges, high-level machine learning engineering (MLE) tasks remain labor-intensive and iterative. We introduce R&D-Agent, a comprehensive, decoupled, and extensible framework that formalizes the MLE process. R&D-Agent defines the MLE workflow into two phases and six components, turning agent design for MLE from ad-hoc craftsmanship into a principled, testable process. Although several existing agents report promising gains on their chosen components, they can mostly be summarized as a partial optimization from our framework's simple baseline. Inspired by human experts, we designed efficient and effective agents within this framework that achieve state-of-the-art performance. Evaluated on MLE-Bench, the agent built on R&D-Agent ranks as the top-performing machine learning engineering agent, achieving 35.1% any medal rate, demonstrating the ability of the framework to speed up innovation and improve accuracy across a wide range of data science applications. We have open-sourced R&D-Agent on GitHub: https://github.com/microsoft/RD-Agent.
- Abstract(参考訳): AIとMLの最近の進歩はデータサイエンスを変革させたが、複雑さと専門知識の要求は進歩を妨げ続けている。
クラウドソーシングプラットフォームはいくつかの課題を緩和するが、高レベルの機械学習エンジニアリング(MLE)タスクは労働集約的で反復的である。
我々は,MLEプロセスを形式化した包括的で疎結合で拡張可能なフレームワークであるR&D-Agentを紹介する。
R&D-Agentは、MLEワークフローを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計をアドホックなクラフトマンシップから原則的でテスト可能なプロセスに変える。
いくつかの既存のエージェントは、選択したコンポーネントに対して有望な利益を報告していますが、それらは主に、我々のフレームワークの単純なベースラインから部分最適化として要約することができます。
人間の専門家にインスパイアされた我々は、最先端のパフォーマンスを実現するために、このフレームワーク内で効率的で効果的なエージェントを設計しました。
MLE-Benchに基づいて評価され、R&D-Agentに基づいて構築されたエージェントは、最高パフォーマンスの機械学習エンジニアリングエージェントとしてランク付けされ、35.1%のメダル獲得を達成した。
我々はGitHubでR&D-Agentをオープンソースにした。
関連論文リスト
- SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents [43.74003959397812]
大規模言語モデル(LLM)ベースのエージェントは、最近、複雑な推論とツールの使用において、環境とのマルチステップのインタラクションを通じて印象的な機能を示した。
これらの軌道にはリッチなフィードバックが含まれており、エージェントを正しい方向に誘導して問題を正しく解くことができる。
モンテカルロ木探索 (MCTS) のような一般的な手法は、探索と搾取を効果的にバランスさせることができるが、それらは様々な軌道間の相互依存を無視している。
エージェントが推論プロセスを反復的に最適化できる自己進化フレームワークSE-Agentを提案する。
論文 参考訳(メタデータ) (2025-08-04T05:51:55Z) - Graphs Meet AI Agents: Taxonomy, Progress, and Future Opportunities [117.49715661395294]
データ構造化は、複雑で非組織的なデータをよく構造化された形式に変換することで、有望な役割を果たす。
この調査では、グラフがAIエージェントにどのように権限を与えるかを、初めて体系的にレビューする。
論文 参考訳(メタデータ) (2025-06-22T12:59:12Z) - EvolveSearch: An Iterative Self-Evolving Search Agent [98.18686493123785]
大規模言語モデル(LLM)は、検索エンジンやWebブラウザなどのツールを統合することで、エージェント情報検索機能を変革した。
本研究では,SFTとRLを組み合わせた新たな反復的自己進化フレームワークであるEvolveSearchを提案する。
論文 参考訳(メタデータ) (2025-05-28T15:50:48Z) - R&D-Agent-Quant: A Multi-Agent Framework for Data-Centric Factors and Model Joint Optimization [19.301233249500655]
金融市場は、その高次元性、非定常性、持続的ボラティリティにより、資産返却予測に根本的な課題を提起する。
大規模言語モデルやマルチエージェントシステムの進歩にもかかわらず、現在の定量的研究パイプラインは、限定された自動化、弱い解釈可能性、ファクタマイニングやモデル革新といった重要なコンポーネント間の断片的な調整に悩まされている。
本稿では,量的ファイナンスのためのR&D-Agentを提案する。RD-Agent(Q)は,コーディネート・ファクターモデルによる量的戦略の完全な研究と開発を自動化するために設計された,最初のデータ中心型マルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T06:20:56Z) - ResearchCodeAgent: An LLM Multi-Agent System for Automated Codification of Research Methodologies [16.90884865239373]
本研究では,研究方法論の体系化を自動化する新しいマルチエージェントシステムであるResearchCodeAgentを紹介する。
このシステムは、ハイレベルな研究概念と実践的な実装のギャップを埋める。
ResearchCodeAgentは、研究実施プロセスに向けた重要なステップであり、機械学習研究のペースを加速する可能性がある。
論文 参考訳(メタデータ) (2025-04-28T07:18:45Z) - OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problem with Reasoning Large Language Model [2.138587105340617]
運用研究(OR)は資源配分、生産計画、サプライチェーン管理など様々な分野に広く適用されてきた。
従来の手法は専門家に大きく依存しており、コストがかかり開発サイクルが長い。
OR-LLM-Agentは、現実世界のOR問題を解決するためにエンドツーエンドの自動化を可能にする最初のAIエージェントである。
論文 参考訳(メタデータ) (2025-03-13T03:40:50Z) - ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。
Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。
人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:24:45Z) - EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは、特殊エージェントをマルチエージェントシステムに自動的に拡張するジェネリックメソッドである。
EvoAgent は LLM エージェントのタスク解決能力を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-06-20T11:49:23Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。