Fugu-MT 論文翻訳(概要): MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research

論文の概要: MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research

arxiv url: http://arxiv.org/abs/2505.19955v1
Date: Mon, 26 May 2025 13:18:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.455435
Title: MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research
Title（参考訳）: MLR-Bench: オープンエンド機械学習研究におけるAIエージェントの評価
Authors: Hui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Yufei He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi,
Abstract要約: MLR-Benchは、オープンエンド機械学習研究においてAIエージェントを評価するための包括的なベンチマークである。 MLR-Benchは,(1)NeurIPS, ICLR, ICMLのさまざまなMLトピックを対象としたワークショップから得られた201のリサーチタスク,(2)LLMベースのレビュアーと慎重に設計されたレビュールーリックを組み合わせた自動評価フレームワーク,(3)MLR-Agent,研究タスクを4段階(アイデア生成,提案定式化,実験,論文執筆)で完了するモジュールエージェントの足場である。
参考スコア（独自算出の注目度）: 45.13919034931968
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in AI agents have demonstrated their growing potential to drive and support scientific discovery. In this work, we introduce MLR-Bench, a comprehensive benchmark for evaluating AI agents on open-ended machine learning research. MLR-Bench includes three key components: (1) 201 research tasks sourced from NeurIPS, ICLR, and ICML workshops covering diverse ML topics; (2) MLR-Judge, an automated evaluation framework combining LLM-based reviewers with carefully designed review rubrics to assess research quality; and (3) MLR-Agent, a modular agent scaffold capable of completing research tasks through four stages: idea generation, proposal formulation, experimentation, and paper writing. Our framework supports both stepwise assessment across these distinct research stages, and end-to-end evaluation of the final research paper. We then use MLR-Bench to evaluate six frontier LLMs and an advanced coding agent, finding that while LLMs are effective at generating coherent ideas and well-structured papers, current coding agents frequently (e.g., in 80% of the cases) produce fabricated or invalidated experimental results--posing a major barrier to scientific reliability. We validate MLR-Judge through human evaluation, showing high agreement with expert reviewers, supporting its potential as a scalable tool for research evaluation. We open-source MLR-Bench to help the community benchmark, diagnose, and improve AI research agents toward trustworthy and transparent scientific discovery.
Abstract（参考訳）: AIエージェントの最近の進歩は、科学的発見を推進し支援する可能性の増大を実証している。本研究では,オープンエンド機械学習研究におけるAIエージェント評価のための総合ベンチマークであるMLR-Benchを紹介する。 MLR-Benchは,(1)NeurIPS, ICLR, ICMLのさまざまなMLトピックを対象としたワークショップから得られた201のリサーチタスク,(2)LLMベースのレビュアーと慎重に設計されたレビュールーリックを組み合わせた自動評価フレームワーク,(3)MLR-Agent,研究タスクを4段階(アイデア生成,提案定式化,実験,論文執筆)で完了するモジュールエージェントの足場である。本フレームワークは,これらの異なる研究段階における段階的評価と最終研究論文のエンドツーエンド評価の両方をサポートする。次に、6つのフロンティアLCMと高度な符号化エージェントを評価するためにMLR-Benchを用い、LCMはコヒーレントなアイデアや十分に構造化された論文を生成するのに有効である一方で、現在の符号化エージェント(例:80%)は、しばしば製造された、または無効な実験結果を生成する。我々は、人間の評価を通じてMLR-Judgeを検証するとともに、専門家のレビュアーと高い合意を示し、研究評価のためのスケーラブルなツールとしての可能性を支持する。私たちはMLR-Benchをオープンソースとして公開し、コミュニティのベンチマーク、診断、AI研究エージェントの改善を支援しています。

関連論文リスト

AblationBench: Evaluating Automated Planning of Ablations in Empirical AI Research [34.173947968362675]
AblationBenchは、経験的AI研究におけるアブレーション計画タスクのエージェントを評価するためのベンチマークスイートである。 AuthorAblationは、著者がメソッドセクションに基づいてアブレーション実験を提案するのに役立つ。両方のタスクに対して,自動評価フレームワークとして機能するLMベースの判断器を開発する。
論文参考訳（メタデータ） (2025-07-09T12:07:38Z)
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [64.62421656031128]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。 MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文参考訳（メタデータ） (2025-04-13T19:35:43Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文参考訳（メタデータ） (2025-02-20T12:28:23Z)
Agent Laboratory: Using LLM Agents as Research Assistants [26.588095150057384]
Agent Laboratoryは、研究プロセス全体を完了できる自律的なフレームワークである。人間が提案する研究アイデアを受け入れ、文学的レビュー、実験、レポート作成という3つの段階を進む。エージェント・ラボラトリーは研究費を大幅に削減し、従来の自律的な研究方法に比べて84%の削減を実現している。
論文参考訳（メタデータ） (2025-01-08T01:58:42Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
CycleResearcher: Improving Automated Research via Automated Review [37.03497673861402]
本稿では,オープンソースの後学習型大規模言語モデル(LLM)を,自動研究とレビューの全サイクルを遂行する自律エージェントとして活用する可能性について検討する。これらのモデルをトレーニングするために、現実の機械学習研究とピアレビューダイナミクスを反映した2つの新しいデータセットを開発した。その結果,CycleReviewerは平均絶対誤差(MAE)を26.89%削減して有望な性能を達成できた。
論文参考訳（メタデータ） (2024-10-28T08:10:21Z)
Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文参考訳（メタデータ） (2024-02-23T06:04:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。