論文の概要: EnvBench: A Benchmark for Automated Environment Setup
- arxiv url: http://arxiv.org/abs/2503.14443v1
- Date: Tue, 18 Mar 2025 17:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 16:29:13.352832
- Title: EnvBench: A Benchmark for Automated Environment Setup
- Title(参考訳): EnvBench: 自動環境設定のためのベンチマーク
- Authors: Aleksandra Eliseeva, Alexander Kovrigin, Ilia Kholkin, Egor Bogomolov, Yaroslav Zharov,
- Abstract要約: 大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。
環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。
このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
- 参考スコア(独自算出の注目度): 76.02998475135824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have enabled researchers to focus on practical repository-level tasks in software engineering domain. In this work, we consider a cornerstone task for automating work with software repositories-environment setup, i.e., a task of configuring a repository-specific development environment on a system. Existing studies on environment setup introduce innovative agentic strategies, but their evaluation is often based on small datasets that may not capture the full range of configuration challenges encountered in practice. To address this gap, we introduce a comprehensive environment setup benchmark EnvBench. It encompasses 329 Python and 665 JVM-based (Java, Kotlin) repositories, with a focus on repositories that present genuine configuration challenges, excluding projects that can be fully configured by simple deterministic scripts. To enable further benchmark extension and usage for model tuning, we implement two automatic metrics: a static analysis check for missing imports in Python and a compilation check for JVM languages. We demonstrate the applicability of our benchmark by evaluating three environment setup approaches, including a simple zero-shot baseline and two agentic workflows, that we test with two powerful LLM backbones, GPT-4o and GPT-4o-mini. The best approach manages to successfully configure 6.69% repositories for Python and 29.47% repositories for JVM, suggesting that EnvBench remains challenging for current approaches. Our benchmark suite is publicly available at https://github.com/JetBrains-Research/EnvBench. The dataset and experiment trajectories are available at https://jb.gg/envbench.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。
本研究では,システム上でリポジトリ固有の開発環境を構築するための,ソフトウェアリポジトリ環境設定による作業を自動化するための基礎的タスクについて考察する。
環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は多くの場合、実際に遭遇する完全な構成上の課題を捉えない小さなデータセットに基づいている。
このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
329のPythonと665のJVMベースの(Java、Kotlin)レポジトリを含み、単純な決定論的スクリプトで完全に構成可能なプロジェクトを除いて、真の構成上の課題を示すレポジトリに重点を置いている。
モデルチューニングのためのさらなるベンチマーク拡張と使用を可能にするため、Pythonの欠落したインポートの静的解析チェックとJVM言語のコンパイルチェックという、2つの自動メトリクスを実装しました。
GPT-4oとGPT-4o-miniの2つの強力なLCMバックボーンを用いて、単純なゼロショットベースラインと2つのエージェントワークフローを含む3つの環境設定アプローチを評価することで、ベンチマークの適用性を実証した。
最良のアプローチは、Pythonの6.69%のリポジトリとJVMの29.47%のリポジトリをうまく構成する。
ベンチマークスイートはhttps://github.com/JetBrains-Research/EnvBench.comで公開されています。
データセットと実験のトラジェクトリはhttps://jb.gg/envbench.orgで公開されている。
関連論文リスト
- HerAgent: Rethinking the Automated Environment Deployment via Hierarchical Test Pyramid [15.944450159856602]
環境設定の成功は、単一のバイナリ信号ではなく、実行可能なエビデンスによって評価されるべきである。
本稿では,実行環境を段階的に構築する自動環境設定手法であるHerAgentを提案する。
論文 参考訳(メタデータ) (2026-02-08T08:57:05Z) - SWE-World: Building Software Engineering Agents in Docker-Free Environments [91.17484806743641]
SWE-Worldは、物理的な実行環境を、ソフトウェアエンジニアリングエージェントのトレーニングと評価のための学習的なサロゲートに置き換える、Dockerフリーのフレームワークである。
我々は,SWE-WorldがQwen2.5-Coder-32Bを,DockerフリーのSFTで6.2%から52.0%,DockerフリーのRLで55.0%,さらにTSで68.2%に引き上げたことを示す。
論文 参考訳(メタデータ) (2026-02-03T11:44:39Z) - MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering [54.236614097082395]
本稿では,自動環境構築のためのフレームワークであるMEnvAgentを紹介する。
MEnvAgentは、建設失敗を自律的に解決するマルチエージェント計画実行検証アーキテクチャを採用している。
MEnvData-SWEは,これまでで最大の,現実的な検証可能なDocker環境のポリグロットデータセットである。
論文 参考訳(メタデータ) (2026-01-30T11:36:10Z) - TimeMachine-bench: A Benchmark for Evaluating Model Capabilities in Repository-Level Migration Tasks [12.573674060643787]
TimeMachine-benchは、現実のPythonプロジェクトでソフトウェアマイグレーションを評価するために設計されたベンチマークである。
私たちのベンチマークは、依存関係の更新に応じてテストが失敗し始めるGitHubリポジトリで構成されています。
論文 参考訳(メタデータ) (2026-01-30T05:42:45Z) - EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis [101.67583081810136]
大規模言語モデル(LLM)は、様々な現実世界環境においてエージェントとして機能するよう訓練されることが期待されている。
このプロセスはリッチで多様なツール・インタラクション・サンドボックスに依存している。
スケーラブルなツールインタラクション環境のための自動化フレームワークであるEnvScalerを提案する。
論文 参考訳(メタデータ) (2026-01-09T14:32:06Z) - SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories [2.951332247539421]
オープンソースGitHubプロジェクトからリポジトリレベルのコーディングタスクを生成する自動フレームワークであるSWE-Bench++を紹介します。
合成アプローチとは異なり、パイプラインは11言語にわたるバグ修正と機能要求の両方をカバーするために、ライブプルリクエストを収集します。
最初のベンチマークは11言語にわたる3,971リポジトリから11,133インスタンスで構成されています。
論文 参考訳(メタデータ) (2025-12-19T10:16:51Z) - PIPer: On-Device Environment Setup via Online Reinforcement Learning [74.52354321028493]
自動化された環境設定メソッドは、任意のリポジトリに対して、手作業なしで完全に構成された環境を提供することで、開発者を支援することができる。
近年の研究では、最先端のLarge Language Models (LLMs) でさえ、このタスクの自動化に限られた成功をおさめていることが明らかになっている。
我々は、正しいスクリプトを生成するための教師付き微調整と、環境設定のタスクに適応するために、Reinforcement Learning with Verifiable Rewards(RLVR)を組み合わせる。
EnvBench-Python では,より大型の Qwen3-32B や GPT-4 と同等に動作可能な Qwen3-8B (コンシューマハードウェア上で動作可能なモデル) を実現する。
論文 参考訳(メタデータ) (2025-09-29T20:03:05Z) - SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文 参考訳(メタデータ) (2025-07-11T22:45:07Z) - SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks [34.8513098099929]
SWE-Factoryは、大規模なGitHubイシュー解決データセットを作成するために設計された、自動パイプラインである。
SWE-Builderは評価環境構築を自動化するマルチエージェントシステムである。
出口符号に基づくグルーピングは手動検査に比べて100%精度が向上する。
論文 参考訳(メタデータ) (2025-06-12T17:54:17Z) - Automated Benchmark Generation for Repository-Level Coding Tasks [7.305342793164905]
SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。
i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
論文 参考訳(メタデータ) (2025-03-10T17:42:49Z) - An LLM-based Agent for Reliable Docker Environment Configuration [9.436480907117415]
Repo2Runは環境設定を完全に自動化し、任意のPythonリポジトリに対して実行可能なDockerfileを生成するように設計されたエージェントである。
1) LLMエージェントが分離されたDockerコンテナ内の環境を構成できるようにし、(2) 正常な設定プロセスが記録され、エラーなく正確にDockerfileに転送されることを保証する。
Repo2Runonが提案した420のPythonレポジトリとユニットテストのベンチマークを評価し、86.4%の成功率で、ベースラインを63.9%上回った。
論文 参考訳(メタデータ) (2025-02-19T12:51:35Z) - ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。
本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。
次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文 参考訳(メタデータ) (2024-12-16T17:14:35Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。
RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。
Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文 参考訳(メタデータ) (2024-04-22T03:52:54Z) - AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
一般的な仮想エージェントは、マルチモーダルな観察、複雑なアクション空間のマスター、動的でオープンなドメイン環境における自己改善を扱う必要がある。
AgentStudioは、非常に汎用的な観察とアクション空間を備えた軽量でインタラクティブな環境を提供する。
オンラインベンチマークタスクの作成、GUI要素の注釈付け、ビデオ内のアクションのラベル付けといったツールを統合する。
環境とツールに基づいて、GUIインタラクションと関数呼び出しの両方を効率的な自動評価でベンチマークするオンラインタスクスイートをキュレートします。
論文 参考訳(メタデータ) (2024-03-26T17:54:15Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Learning Cross-Modal Affinity for Referring Video Object Segmentation
Targeting Limited Samples [61.66967790884943]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。
より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。
トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。
CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
論文 参考訳(メタデータ) (2023-09-05T08:34:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。