論文の概要: FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth
- arxiv url: http://arxiv.org/abs/2510.10472v1
- Date: Sun, 12 Oct 2025 06:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.960693
- Title: FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth
- Title(参考訳): FML-bench: 探索ブレッドスの重要性を強調した自動MLリサーチエージェントのベンチマーク
- Authors: Qiran Zou, Hou Hei Lam, Wenhao Zhao, Yiming Tang, Tingting Chen, Samson Yu, Tianyi Zhang, Chang Liu, Xiangyang Ji, Dianbo Liu,
- Abstract要約: 大規模言語モデル(LLM)は、自動機械学習研究エージェントへの関心が高まっている。
既存のベンチマークは、学術的な厳格さを無視しながら、エンジニアリングの側面を過度に強調する傾向がある。
FML-benchは、機械学習の自動研究エージェントを、多種多様な8つの基礎的な機械学習研究問題に対して評価するために設計されたベンチマークである。
- 参考スコア(独自算出の注目度): 43.606494515048524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have sparked growing interest in automatic machine learning research agents. Among them, agents capable of autonomously proposing ideas and conducting machine learning experiments are particularly promising, as they maximize research automation and accelerate scientific progress by iteratively refining ideas based on experimental results. However, comprehensively evaluating such agents remains challenging. Existing benchmarks tend to overemphasize engineering aspects while neglecting academic rigor, creating barriers that obscure a clear assessment of an agent's scientific capabilities in machine learning research. They also suffer from limited task diversity, an overemphasis on application-oriented tasks over fundamental research problems, and limited scalability to realistic research settings. To address these limitations, we introduce FML-bench, a benchmark designed to evaluate automatic machine learning research agents on 8 diverse and fundamental machine learning research problems. It reduces coding burden, emphasizes fundamental problems rather than specific use cases, offers high task diversity, and is extensible to real-world machine learning GitHub repositories. Furthermore, we present a unified evaluation framework with five complementary metrics, designed to comprehensively assess agent performance on our benchmark. We evaluate state-of-the-art automatic research agents on FML-bench, and find that agents employing broad research exploration strategies outperform those focusing on narrow but deep exploration. These findings suggest that emphasizing the breadth of exploration may lead to more effective research outcomes than focusing solely on incremental refinement. Our benchmark is available at https://github.com/qrzou/FML-bench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動機械学習研究エージェントへの関心が高まっている。
中でも、研究の自動化を最大化し、実験結果に基づいてアイデアを反復的に精錬することによって科学的進歩を加速するため、アイデアを自律的に提案し、機械学習の実験を行うエージェントは特に有望である。
しかし、こうしたエージェントを総合的に評価することは依然として困難である。
既存のベンチマークは、学術的な厳格さを無視しながらエンジニアリングの側面を過度に強調し、機械学習研究におけるエージェントの科学的能力を明確に評価する障壁を生じさせる傾向がある。
彼らはまた、タスクの多様性の制限、基本的な研究問題に対するアプリケーション指向のタスクの過大評価、現実的な研究設定へのスケーラビリティの制限も抱えています。
これらの制限に対処するために、FML-benchは、機械学習研究の8つの多種多様な基礎的な問題に対して、自動機械学習研究エージェントを評価するために設計されたベンチマークである。
コーディングの負担を軽減し、特定のユースケースよりも根本的な問題を強調し、タスクの多様性を高め、現実世界の機械学習GitHubリポジトリに拡張可能である。
さらに,ベンチマークでエージェントのパフォーマンスを総合的に評価する5つの相補的指標を備えた統合評価フレームワークを提案する。
我々は、FMLベンチにおける最先端の自動調査エージェントの評価を行い、より広い調査戦略を採用するエージェントが、狭く深い調査に焦点を当てたエージェントよりも優れていることを発見した。
これらの結果から,探索の幅の広さを強調することは,漸進的な改良にのみ焦点をあてるよりも,より効果的な研究成果をもたらす可能性が示唆された。
ベンチマークはhttps://github.com/qrzou/FML-bench.comで公開しています。
関連論文リスト
- RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection [55.125987985864896]
環境の複雑さが脆弱な探索行動をいかに引き起こすかを定量的に分析する。
本稿では,検索エージェントRE-Searcherのインスタンス化をシンプルかつ効果的に行う手法を提案する。
この目標指向計画と自己回帰の組み合わせにより、RE-Searcherは複雑な検索環境における急激な手がかりに抵抗することができる。
論文 参考訳(メタデータ) (2025-09-30T10:25:27Z) - Can Language Models Critique Themselves? Investigating Self-Feedback for Retrieval Augmented Generation at BioASQ 2025 [1.6819960041696331]
RAGと「ディープリサーチ」システムは、大規模言語モデル(LLM)が反復的に出力を洗練する自律的な探索プロセスの実現を目的としている。
これらのシステムを、生物医学研究のようなドメイン固有の専門的な検索に適用することは、課題を提示する。
本研究では,この反復的自己補正によって性能が向上し,推論モデルがより有用なフィードバックを生成できるかどうかを検討した。
論文 参考訳(メタデータ) (2025-08-07T13:13:19Z) - MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [64.62421656031128]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。
MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。
最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文 参考訳(メタデータ) (2025-04-13T19:35:43Z) - Autonomous Microscopy Experiments through Large Language Model Agents [4.241267255764773]
大規模言語モデル(LLM)は、材料研究のための自己運転実験室(SDL)に革命をもたらしている。
LLM駆動エージェントによる原子間力顕微鏡の自動化フレームワークであるArtificially Intelligent Lab Assistant (AILA)を紹介する。
アートモデルの現状が,基本的なタスクや調整シナリオに苦労していることに気付きました。
論文 参考訳(メタデータ) (2024-12-18T09:35:28Z) - ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents [10.86017322488788]
大規模言語モデルを用いた自律型機械学習研究(MLR-Copilot)を提案する。
大規模言語モデル(LLM)エージェントを用いた研究アイデアの自動生成と実装を通じて、機械学習研究の生産性を向上させるように設計されている。
我々は,5つの機械学習研究課題に関するフレームワークを評価し,研究の進展とイノベーションを促進するためのフレームワークの可能性を示す実験結果を示した。
論文 参考訳(メタデータ) (2024-08-26T05:55:48Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。