論文の概要: FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth
- arxiv url: http://arxiv.org/abs/2510.10472v1
- Date: Sun, 12 Oct 2025 06:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.960693
- Title: FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth
- Title(参考訳): FML-bench: 探索ブレッドスの重要性を強調した自動MLリサーチエージェントのベンチマーク
- Authors: Qiran Zou, Hou Hei Lam, Wenhao Zhao, Yiming Tang, Tingting Chen, Samson Yu, Tianyi Zhang, Chang Liu, Xiangyang Ji, Dianbo Liu,
- Abstract要約: 大規模言語モデル(LLM)は、自動機械学習研究エージェントへの関心が高まっている。
既存のベンチマークは、学術的な厳格さを無視しながら、エンジニアリングの側面を過度に強調する傾向がある。
FML-benchは、機械学習の自動研究エージェントを、多種多様な8つの基礎的な機械学習研究問題に対して評価するために設計されたベンチマークである。
- 参考スコア(独自算出の注目度): 43.606494515048524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have sparked growing interest in automatic machine learning research agents. Among them, agents capable of autonomously proposing ideas and conducting machine learning experiments are particularly promising, as they maximize research automation and accelerate scientific progress by iteratively refining ideas based on experimental results. However, comprehensively evaluating such agents remains challenging. Existing benchmarks tend to overemphasize engineering aspects while neglecting academic rigor, creating barriers that obscure a clear assessment of an agent's scientific capabilities in machine learning research. They also suffer from limited task diversity, an overemphasis on application-oriented tasks over fundamental research problems, and limited scalability to realistic research settings. To address these limitations, we introduce FML-bench, a benchmark designed to evaluate automatic machine learning research agents on 8 diverse and fundamental machine learning research problems. It reduces coding burden, emphasizes fundamental problems rather than specific use cases, offers high task diversity, and is extensible to real-world machine learning GitHub repositories. Furthermore, we present a unified evaluation framework with five complementary metrics, designed to comprehensively assess agent performance on our benchmark. We evaluate state-of-the-art automatic research agents on FML-bench, and find that agents employing broad research exploration strategies outperform those focusing on narrow but deep exploration. These findings suggest that emphasizing the breadth of exploration may lead to more effective research outcomes than focusing solely on incremental refinement. Our benchmark is available at https://github.com/qrzou/FML-bench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動機械学習研究エージェントへの関心が高まっている。
中でも、研究の自動化を最大化し、実験結果に基づいてアイデアを反復的に精錬することによって科学的進歩を加速するため、アイデアを自律的に提案し、機械学習の実験を行うエージェントは特に有望である。
しかし、こうしたエージェントを総合的に評価することは依然として困難である。
既存のベンチマークは、学術的な厳格さを無視しながらエンジニアリングの側面を過度に強調し、機械学習研究におけるエージェントの科学的能力を明確に評価する障壁を生じさせる傾向がある。
彼らはまた、タスクの多様性の制限、基本的な研究問題に対するアプリケーション指向のタスクの過大評価、現実的な研究設定へのスケーラビリティの制限も抱えています。
これらの制限に対処するために、FML-benchは、機械学習研究の8つの多種多様な基礎的な問題に対して、自動機械学習研究エージェントを評価するために設計されたベンチマークである。
コーディングの負担を軽減し、特定のユースケースよりも根本的な問題を強調し、タスクの多様性を高め、現実世界の機械学習GitHubリポジトリに拡張可能である。
さらに,ベンチマークでエージェントのパフォーマンスを総合的に評価する5つの相補的指標を備えた統合評価フレームワークを提案する。
我々は、FMLベンチにおける最先端の自動調査エージェントの評価を行い、より広い調査戦略を採用するエージェントが、狭く深い調査に焦点を当てたエージェントよりも優れていることを発見した。
これらの結果から,探索の幅の広さを強調することは,漸進的な改良にのみ焦点をあてるよりも,より効果的な研究成果をもたらす可能性が示唆された。
ベンチマークはhttps://github.com/qrzou/FML-bench.comで公開しています。
関連論文リスト
- The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。
我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。
我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文 参考訳(メタデータ) (2026-02-05T19:00:02Z) - FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights [63.32178443510396]
FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) は、確立された発見の再検討を通じてエージェントを評価するベンチマークである。
最強のエージェントでさえ、限られた再発見成功(50 F1)を達成し、実行中に高いばらつきを示し、実験的な設計、実行、エビデンスに基づく推論において繰り返し失敗モードを表示する。
論文 参考訳(メタデータ) (2026-02-02T23:21:13Z) - The Role of AI in Modern Penetration Testing [0.0]
侵入テストはサイバーセキュリティの基礎であり、伝統的に手動の時間集約的なプロセスによって駆動される。
この体系的な文献レビューは、人工知能(AI)が浸透試験をどう変えているかを検証している。
論文 参考訳(メタデータ) (2025-12-13T13:34:31Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection [55.125987985864896]
環境の複雑さが脆弱な探索行動をいかに引き起こすかを定量的に分析する。
本稿では,検索エージェントRE-Searcherのインスタンス化をシンプルかつ効果的に行う手法を提案する。
この目標指向計画と自己回帰の組み合わせにより、RE-Searcherは複雑な検索環境における急激な手がかりに抵抗することができる。
論文 参考訳(メタデータ) (2025-09-30T10:25:27Z) - Can Language Models Critique Themselves? Investigating Self-Feedback for Retrieval Augmented Generation at BioASQ 2025 [1.6819960041696331]
RAGと「ディープリサーチ」システムは、大規模言語モデル(LLM)が反復的に出力を洗練する自律的な探索プロセスの実現を目的としている。
これらのシステムを、生物医学研究のようなドメイン固有の専門的な検索に適用することは、課題を提示する。
本研究では,この反復的自己補正によって性能が向上し,推論モデルがより有用なフィードバックを生成できるかどうかを検討した。
論文 参考訳(メタデータ) (2025-08-07T13:13:19Z) - MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research [70.72318131988102]
MLR-Benchは、オープンエンド機械学習研究においてAIエージェントを評価するための包括的なベンチマークである。
MLR-Benchは,(1)NeurIPS, ICLR, ICMLのさまざまなMLトピックを対象としたワークショップから得られた201のリサーチタスク,(2)LLMベースのレビュアーと慎重に設計されたレビュールーリックを組み合わせた自動評価フレームワーク,(3)MLR-Agent,研究タスクを4段階(アイデア生成,提案定式化,実験,論文執筆)で完了するモジュールエージェントの足場である。
論文 参考訳(メタデータ) (2025-05-26T13:18:37Z) - MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [64.62421656031128]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。
MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。
最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文 参考訳(メタデータ) (2025-04-13T19:35:43Z) - Autonomous Microscopy Experiments through Large Language Model Agents [4.241267255764773]
大規模言語モデル(LLM)は、材料研究のための自己運転実験室(SDL)に革命をもたらしている。
LLM駆動エージェントによる原子間力顕微鏡の自動化フレームワークであるArtificially Intelligent Lab Assistant (AILA)を紹介する。
アートモデルの現状が,基本的なタスクや調整シナリオに苦労していることに気付きました。
論文 参考訳(メタデータ) (2024-12-18T09:35:28Z) - ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents [10.86017322488788]
大規模言語モデルを用いた自律型機械学習研究(MLR-Copilot)を提案する。
大規模言語モデル(LLM)エージェントを用いた研究アイデアの自動生成と実装を通じて、機械学習研究の生産性を向上させるように設計されている。
我々は,5つの機械学習研究課題に関するフレームワークを評価し,研究の進展とイノベーションを促進するためのフレームワークの可能性を示す実験結果を示した。
論文 参考訳(メタデータ) (2024-08-26T05:55:48Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。