論文の概要: From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking
- arxiv url: http://arxiv.org/abs/2506.19724v1
- Date: Tue, 24 Jun 2025 15:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.701759
- Title: From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking
- Title(参考訳): 再現からレプリケーションへ: プログレッシブコードマスキングによる研究エージェントの評価
- Authors: Gyeongwon James Kim, Alex Wilf, Louis-Philippe Morency, Daniel Fried,
- Abstract要約: AutoExperimentは、AIエージェントの機械学習実験の実装と実行能力を評価するベンチマークである。
我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。
本研究は、長期コード生成、文脈検索、自律的な実験実行における重要な課題を浮き彫りにした。
- 参考スコア(独自算出の注目度): 48.90371827091671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in autonomous code generation has fueled excitement around AI agents capable of accelerating scientific discovery by running experiments. However, there is currently no benchmark that evaluates whether such agents can implement scientific ideas when given varied amounts of code as a starting point, interpolating between reproduction (running code) and from-scratch replication (fully re-implementing and running code). We introduce AutoExperiment, a benchmark that evaluates AI agents' ability to implement and run machine learning experiments based on natural language descriptions in research papers. In each task, agents are given a research paper, a codebase with key functions masked out, and a command to run the experiment. The goal is to generate the missing code, execute the experiment in a sandboxed environment, and reproduce the results. AutoExperiment scales in difficulty by varying the number of missing functions $n$, ranging from partial reproduction to full replication. We evaluate state-of-the-art agents and find that performance degrades rapidly as $n$ increases. Agents that can dynamically interact with the environment (e.g. to debug their code) can outperform agents in fixed "agentless" harnesses, and there exists a significant gap between single-shot and multi-trial success rates (Pass@1 vs. Pass@5), motivating verifier approaches to our benchmark. Our findings highlight critical challenges in long-horizon code generation, context retrieval, and autonomous experiment execution, establishing AutoExperiment as a new benchmark for evaluating progress in AI-driven scientific experimentation. Our data and code are open-sourced at https://github.com/j1mk1m/AutoExperiment .
- Abstract(参考訳): 自律的なコード生成の最近の進歩は、実験を行うことで科学的な発見を加速できるAIエージェントに関する興奮を助長している。
しかし、現在、このようなエージェントが様々なコードを出発点として与え、再生(実行コード)とゼロスクラッチレプリケーション(完全に再実装と実行)を補間して科学的アイデアを実装できるかどうかを評価するベンチマークはない。
本稿では,AIエージェントによる自然言語記述に基づく機械学習実験の実装と実行能力を評価するベンチマークであるAutoExperimentを紹介する。
各タスクでは、エージェントに研究論文、キー関数がマスクアウトされたコードベース、実験を実行するコマンドが与えられる。
目標は、不足したコードを生成し、サンドボックス環境で実験を実行し、その結果を再現することだ。
AutoExperimentは、部分的な複製から完全なレプリケーションまで、不足する関数の数を$n$にすることで、難易度をスケールする。
我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。
環境と動的に対話できるエージェント(例えば、コードをデバッグする)は、固定された"エージェントレス"ハーネスでエージェントを上回り、シングルショットとマルチトライアルの成功率(Pass@1 vs. Pass@5)の間に大きなギャップがあり、我々のベンチマークに対する検証アプローチを動機付けます。
我々の研究は、AIによる科学実験の進歩を評価するための新しいベンチマークとしてAutoExperimentを確立することで、長期のコード生成、コンテキスト検索、自律的な実験実行における重要な課題を浮き彫りにした。
私たちのデータとコードはhttps://github.com/j1mk1m/AutoExperiment.comでオープンソース化されています。
関連論文リスト
- AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。
結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文 参考訳(メタデータ) (2025-05-27T03:15:21Z) - R&D-Agent: Automating Data-Driven AI Solution Building Through LLM-Powered Automated Research, Development, and Evolution [60.80016554091364]
R&D-Agentは反復探索のための二重エージェントフレームワークである。
Researcherエージェントはパフォーマンスフィードバックを使用してアイデアを生成し、Developerエージェントはエラーフィードバックに基づいてコードを洗練する。
R&D-AgentはMLE-Benchで評価され、最高のパフォーマンスの機械学習エンジニアリングエージェントとして登場した。
論文 参考訳(メタデータ) (2025-05-20T06:07:00Z) - CodeScientist: End-to-End Semi-Automated Scientific Discovery with Code-based Experimentation [48.12054700748627]
CodeScientistは、遺伝的検索の形式として、アイデアと実験を共同で行う新しいASDシステムである。
我々はこのパラダイムを用いて、エージェントと仮想環境の領域において、機械生成のアイデアを幅広く数百もの自動実験する。
論文 参考訳(メタデータ) (2025-03-20T22:37:17Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - SIERRA: A Modular Framework for Research Automation and Reproducibility [6.1678491628787455]
本稿では,研究の加速と成果向上のための新しいフレームワークであるSIERRAを紹介する。
SIERRAは、独立変数上のクエリから実行可能な実験を生成するプロセスを自動化することで研究を加速する。
個々の研究者のニーズに応じてカスタマイズと拡張が容易なモジュラーアーキテクチャを採用している。
論文 参考訳(メタデータ) (2022-08-16T15:36:34Z) - SIERRA: A Modular Framework for Research Automation [5.220940151628734]
本稿では,研究の加速と成果向上のための新しいフレームワークであるSIERRAを紹介する。
SIERRAは、実験用の独立変数を素早く指定し、実験的な入力を生成し、実験を自動的に実行し、結果を処理してグラフやビデオなどの成果物を生成する。
個々の研究者のニーズに対して、簡単にカスタマイズと自動化の拡張を可能にする、深くモジュール化されたアプローチを採用している。
論文 参考訳(メタデータ) (2022-03-03T23:45:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。