論文の概要: EXP-Bench: Can AI Conduct AI Research Experiments?
- arxiv url: http://arxiv.org/abs/2505.24785v2
- Date: Mon, 02 Jun 2025 01:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.091599
- Title: EXP-Bench: Can AI Conduct AI Research Experiments?
- Title(参考訳): EXP-Bench: AIはAI研究の実験を実行できるか?
- Authors: Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen,
- Abstract要約: 我々は、AIエージェントを完全な研究実験で評価するための新しいベンチマークであるEXP-Benchを紹介する。
EXP-Benchは、研究の疑問と不完全なスターターコードから、AIエージェントに対して仮説を定式化し、実験手順を設計し、実装し、それらを実行し、結果を分析するよう挑戦する。
このパイプラインでEXP-Benchは、51の上位AI研究論文から461のAI研究タスクをキュレートした。
- 参考スコア(独自算出の注目度): 38.30861763360086
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Automating AI research holds immense potential for accelerating scientific progress, yet current AI agents struggle with the complexities of rigorous, end-to-end experimentation. We introduce EXP-Bench, a novel benchmark designed to systematically evaluate AI agents on complete research experiments sourced from influential AI publications. Given a research question and incomplete starter code, EXP-Bench challenges AI agents to formulate hypotheses, design and implement experimental procedures, execute them, and analyze results. To enable the creation of such intricate and authentic tasks with high-fidelity, we design a semi-autonomous pipeline to extract and structure crucial experimental details from these research papers and their associated open-source code. With the pipeline, EXP-Bench curated 461 AI research tasks from 51 top-tier AI research papers. Evaluations of leading LLM-based agents, such as OpenHands and IterativeAgent on EXP-Bench demonstrate partial capabilities: while scores on individual experimental aspects such as design or implementation correctness occasionally reach 20-35%, the success rate for complete, executable experiments was a mere 0.5%. By identifying these bottlenecks and providing realistic step-by-step experiment procedures, EXP-Bench serves as a vital tool for future AI agents to improve their ability to conduct AI research experiments. EXP-Bench is open-sourced at https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
- Abstract(参考訳): AI研究の自動化は、科学的進歩を加速する大きな可能性を秘めているが、現在のAIエージェントは、厳格でエンドツーエンドの実験の複雑さに苦慮している。
我々は、影響力のあるAI出版物から得られた完全な研究実験に対して、AIエージェントを体系的に評価するために設計された新しいベンチマークEXP-Benchを紹介する。
EXP-Benchは、研究の疑問と不完全なスターターコードから、AIエージェントに対して仮説を定式化し、実験手順を設計し、実装し、それらを実行し、結果を分析するよう挑戦する。
このような複雑で真正なタスクを高忠実に作成するために,これらの研究論文と関連するオープンソースコードから重要な実験詳細を抽出・構造化する半自律パイプラインを設計する。
このパイプラインでEXP-Benchは、51の上位AI研究論文から461のAI研究タスクをキュレートした。
EXP-Bench における OpenHands や IterativeAgent などの LLM ベースのエージェントの評価は,部分的な機能を示している。
これらのボトルネックを特定し、現実的なステップバイステップの実験手順を提供することで、EXP-Benchは、将来のAIエージェントがAI研究実験を行う能力を改善する上で、不可欠なツールとなる。
EXP-Benchはhttps://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_benchでオープンソース公開されている。
関連論文リスト
- Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents [21.001278669360346]
実験プロセスに厳密さを組み込むように設計されたAIフレームワークであるCurieを提案する。
Curieには信頼性を高めるためのエージェント内リガーモジュール、方法論的な制御を維持するためのエージェント間リガーモジュール、解釈性を高めるための実験知識モジュールが含まれている。
テストされた最強のベースラインと比較すると、実験的な質問に正しく答えることにおいて、3.4$times$改善が達成される。
論文 参考訳(メタデータ) (2025-02-22T03:58:19Z) - Autonomous Microscopy Experiments through Large Language Model Agents [4.241267255764773]
大規模言語モデル(LLM)は、材料研究のための自動運転研究所(SDL)の開発を加速させた。
本稿では,原子間力顕微鏡(AFM)を自動化するフレームワークであるAILA(Artificially Intelligent Lab Assistant)を紹介する。
我々の体系的な評価は、最先端の言語モデルがドキュメント検索のような基本的なタスクに悩まされていることを示している。
論文 参考訳(メタデータ) (2024-12-18T09:35:28Z) - ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - "Turing Tests" For An AI Scientist [0.0]
本稿では,AIエージェントが独立して科学的研究を行うことができるかどうかを評価するために,AI科学者の研修試験を提案する。
我々は,AIエージェントが様々な科学領域において画期的な発見を行う能力を評価する7つのベンチマークテストを提案する。
論文 参考訳(メタデータ) (2024-05-22T05:14:27Z) - MLXP: A Framework for Conducting Replicable Experiments in Python [63.37350735954699]
MLXPはPythonをベースとした,オープンソースの,シンプルで,軽量な実験管理ツールである。
実験プロセスを最小限のオーバーヘッドで合理化し、高いレベルの実践的オーバーヘッドを確保します。
論文 参考訳(メタデータ) (2024-02-21T14:22:20Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - PyExperimenter: Easily distribute experiments and track results [63.871474825689134]
PyExperimenterは、アルゴリズムの実験的な研究結果のセットアップ、ドキュメンテーション、実行、およびその後の評価を容易にするツールである。
人工知能の分野で研究者が使用することを意図しているが、それらに限定されていない。
論文 参考訳(メタデータ) (2023-01-16T10:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。