論文の概要: AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench
- arxiv url: http://arxiv.org/abs/2507.02554v1
- Date: Thu, 03 Jul 2025 11:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.188323
- Title: AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench
- Title(参考訳): 機械学習のためのAI研究エージェント:MLEベンチにおける探索、探索、一般化
- Authors: Edan Toledo, Karen Hambardzumyan, Martin Josifoski, Rishi Hazra, Nicolas Baldwin, Alexis Audran-Reiss, Michael Kuchnik, Despoina Magka, Minqi Jiang, Alisia Maria Lupidi, Andrei Lupu, Roberta Raileanu, Kelvin Niu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Michael Shvartsman, Shagun Sodhani, Alexander H. Miller, Abhishek Charnalia, Derek Dunfield, Carole-Jean Wu, Pontus Stenetorp, Nicola Cancedda, Jakob Nicolaus Foerster, Yoram Bachrach,
- Abstract要約: 我々は、AI研究エージェントを候補ソリューションの空間をナビゲートする検索ポリシーとして形式化し、演算子を使ってそれらを反復的に修正する。
我々の最良の探索戦略と演算子の組み合わせは、MLEベンチライトの最先端の成果を達成し、カグルメダルを39.6%から47.7%に引き上げることに成功した。
- 参考スコア(独自算出の注目度): 65.21702462691933
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI research agents are demonstrating great potential to accelerate scientific progress by automating the design, implementation, and training of machine learning models. We focus on methods for improving agents' performance on MLE-bench, a challenging benchmark where agents compete in Kaggle competitions to solve real-world machine learning problems. We formalize AI research agents as search policies that navigate a space of candidate solutions, iteratively modifying them using operators. By designing and systematically varying different operator sets and search policies (Greedy, MCTS, Evolutionary), we show that their interplay is critical for achieving high performance. Our best pairing of search strategy and operator set achieves a state-of-the-art result on MLE-bench lite, increasing the success rate of achieving a Kaggle medal from 39.6% to 47.7%. Our investigation underscores the importance of jointly considering the search strategy, operator design, and evaluation methodology in advancing automated machine learning.
- Abstract(参考訳): AI研究エージェントは、機械学習モデルの設計、実装、トレーニングを自動化することで、科学的進歩を加速する大きな可能性を実証している。
MLE-benchは、エージェントが現実世界の機械学習問題を解決するためにKaggleコンペティションに出場する、挑戦的なベンチマークである。
我々は、AI研究エージェントを候補ソリューションの空間をナビゲートする検索ポリシーとして形式化し、演算子を使ってそれらを反復的に修正する。
演算子セットと探索ポリシー(Greedy, MCTS, Evolutionary)を設計し, 体系的に変更することにより, 高い性能を達成するためには, それらの相互作用が重要であることを示す。
我々の最高の探索戦略と演算子の組み合わせは、MLEベンチライトの最先端の成果を達成し、カグルメダルを39.6%から47.7%に引き上げることに成功した。
本研究は,自動機械学習における探索戦略,演算子設計,評価手法を共同で検討することの重要性を裏付けるものである。
関連論文リスト
- MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Boosting Search Engines with Interactive Agents [25.89284695491093]
本稿では,文脈的クエリ改善のためのメタストラテジーを学習するエージェントの設計における第一歩について述べる。
エージェントには単純だが効果的な検索操作者がいて、クエリや検索結果のきめ細やかで透明な制御を行う。
論文 参考訳(メタデータ) (2021-09-01T13:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。