論文の概要: ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution
- arxiv url: http://arxiv.org/abs/2603.06739v2
- Date: Wed, 11 Mar 2026 07:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:44.051538
- Title: ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution
- Title(参考訳): ResearchEnvBench: 研究コード実行のための環境合成のためのベンチマークエージェント
- Authors: Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng Qiu,
- Abstract要約: ResearchEnvBenchは、研究コード実行における環境合成のベンチマークである。
再現可能な科学的研究に向けて自律的なエージェントを前進させるための現実的なテストベッドを提供する。
- 参考スコア(独自算出の注目度): 44.652433226889976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents are increasingly expected to support scientific research, and recent benchmarks report progress in code repair and autonomous experimentation. However, these evaluations typically assume a pre-configured execution environment, which requires resolving complex software dependencies, aligning hardware and framework versions, and configuring distributed execution, yet this capability remains largely unbenchmarked. We introduce ResearchEnvBench, a benchmark for environment synthesis in research code execution. Given a research repository, documentation, and a target execution setting, agents must construct an environment that successfully executes at runtime. Evaluations on diverse research repositories reveal a substantial gap in current SOTA agents, with failures dominated by incomplete dependency resolution and brittle version coupling. ResearchEnvBench provides a realistic testbed for advancing autonomous agents toward reproducible scientific research.
- Abstract(参考訳): 最近のベンチマークでは、コードの修復と自律的な実験の進捗が報告されている。
しかし、これらの評価は一般的に、複雑なソフトウェア依存関係の解決、ハードウェアとフレームワークのバージョンの整合、分散実行の設定を必要とする、事前設定された実行環境を前提としています。
本研究では,研究コード実行における環境合成のベンチマークであるResearchEnvBenchを紹介する。
調査リポジトリ、ドキュメント、ターゲットの実行設定が与えられた場合、エージェントは実行時に正常に実行される環境を構築する必要がある。
多様な研究レポジトリの評価によると、現在のSOTAエージェントには大きなギャップがあり、不完全な依存性解決と脆いバージョン結合が主な障害となっている。
ResearchEnvBenchは、再現可能な科学的研究に向けて、自律エージェントを前進させるための現実的なテストベッドを提供する。
関連論文リスト
- RExBench: Can coding agents autonomously implement AI research extensions? [14.147417159347448]
LLM(Large Language Models)に基づくエージェントは、高度なソフトウェアエンジニアリングタスクを自律的に実行することを約束している。
研究拡張とその実装は,このようなシステムにとって重要な能力である,と我々は主張する。
この機能の評価をサポートするために、RExBenchを導入します。
論文 参考訳(メタデータ) (2025-06-27T19:41:41Z) - From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking [48.90371827091671]
AutoExperimentは、AIエージェントの機械学習実験の実装と実行能力を評価するベンチマークである。
我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。
本研究は、長期コード生成、文脈検索、自律的な実験実行における重要な課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-24T15:39:20Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - SIERRA: A Modular Framework for Research Automation and Reproducibility [6.1678491628787455]
本稿では,研究の加速と成果向上のための新しいフレームワークであるSIERRAを紹介する。
SIERRAは、独立変数上のクエリから実行可能な実験を生成するプロセスを自動化することで研究を加速する。
個々の研究者のニーズに応じてカスタマイズと拡張が容易なモジュラーアーキテクチャを採用している。
論文 参考訳(メタデータ) (2022-08-16T15:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。