論文の概要: MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?
- arxiv url: http://arxiv.org/abs/2504.09702v1
- Date: Sun, 13 Apr 2025 19:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:38.427711
- Title: MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?
- Title(参考訳): MLRC-Bench: 言語エージェントは機械学習研究の課題を解決できるか?
- Authors: Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang,
- Abstract要約: MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。
MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。
最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
- 参考スコア(独自算出の注目度): 64.62421656031128
- License:
- Abstract: Existing evaluation of large language model (LLM) agents on scientific discovery lacks objective baselines and metrics to assess the viability of their proposed methods. To address this issue, we introduce MLRC-Bench, a benchmark designed to quantify how effectively language agents can tackle challenging Machine Learning (ML) Research Competitions. Our benchmark highlights open research problems that demand novel methodologies, in contrast to recent benchmarks such as OpenAI's MLE-Bench (Chan et al., 2024) and METR's RE-Bench (Wijk et al., 2024), which focus on well-established research tasks that are largely solvable through sufficient engineering effort. Unlike prior work, e.g., AI Scientist (Lu et al., 2024b), which evaluates the end-to-end agentic pipeline by using LLM-as-a-judge, MLRC-Bench measures the key steps of proposing and implementing novel research methods and evaluates them with newly proposed rigorous protocol and objective metrics. Our curated suite of 7 competition tasks reveals significant challenges for LLM agents. Even the best-performing tested agent (gemini-exp-1206 under MLAB (Huang et al., 2024a)) closes only 9.3% of the gap between baseline and top human participant scores. Furthermore, our analysis reveals a misalignment between the LLM-judged innovation and their actual performance on cutting-edge ML research problems. MLRC-Bench is a dynamic benchmark, which is designed to continually grow with new ML competitions to encourage rigorous and objective evaluations of AI's research capabilities.
- Abstract(参考訳): 科学的発見における大規模言語モデル(LLM)エージェントの既存の評価には,提案手法の有効性を評価する客観的基準や指標が欠如している。
この問題に対処するため,MLRC-Benchは,機械学習(ML)リサーチコンペティションに,言語エージェントがいかに効果的に対処できるかを定量化するベンチマークである。
本ベンチマークでは,OpenAI の MLE-Bench (Chan et al ,2024) や METR の RE-Bench (Wijk et al ,2024) などの最近のベンチマークとは対照的に,新しい手法を必要とするオープンな研究課題を強調した。
LLM-as-a-judgeを用いてエンドツーエンドのエージェントパイプラインを評価するAI Scientist(Lu et al , 2024b)とは異なり、MLRC-Benchは、新しい研究手法を提案し、実装する上で重要なステップを計測し、新たに提案された厳密なプロトコルと客観的メトリクスで評価する。
コンペティションタスクのキュレートしたスイートでは,LLMエージェントの課題が明らかにされている。
MLAB(Huang et al , 2024a)の下で最も優れた試験薬であるgemini-exp-1206でさえ、ベースラインとヒトのトップスコアの差の9.3%しか閉じていない。
さらに,LLM-judged のイノベーションと最先端ML研究における実際の性能の相違が明らかになった。
MLRC-Benchは、AIの研究能力を厳格かつ客観的に評価するために、新しいMLコンペティションで継続的に成長するように設計された動的ベンチマークである。
関連論文リスト
- SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - Judging the Judges: A Collection of LLM-Generated Relevance Judgements [37.103230004631996]
本稿では,SIGIR 2024におけるLLMJudgeの大規模自動妥当性評価の結果をベンチマークし,報告する。
8つの国際チームが作成したTREC 2023ディープラーニングトラック関連判定のラベルを42 LLMで作成し、ベンチマークする。
論文 参考訳(メタデータ) (2025-02-19T17:40:32Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Apprentices to Research Assistants: Advancing Research with Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な研究領域において強力なツールとして登場した。
本稿では,文献レビューと手動実験を通じてその可能性について考察する。
論文 参考訳(メタデータ) (2024-04-09T15:53:06Z) - METAL: Metamorphic Testing Framework for Analyzing Large-Language Model
Qualities [4.493507573183107]
大言語モデル(LLM)は自然言語データ処理のパラダイムをシフトさせた。
近年,LLMの品質属性(QA)は,逆入力テキストを生成することで検証されている。
本稿では,これらの問題に対処するメタモルフィック・テスト・フォー・アナライズ・LLM(METAL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T01:29:19Z) - PentestGPT: An LLM-empowered Automatic Penetration Testing Tool [20.449761406790415]
大規模言語モデル(LLM)は、様々な領域において大きな進歩を見せている。
実世界の浸透試験におけるLLMの性能を,プラットフォームを用いたテストマシンから作成した頑健なベンチマークを用いて評価した。
LLMを利用した自動浸透試験ツールであるPentestGPTを紹介する。
論文 参考訳(メタデータ) (2023-08-13T14:35:50Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。