論文の概要: SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments
- arxiv url: http://arxiv.org/abs/2507.09063v1
- Date: Fri, 11 Jul 2025 22:45:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.25487
- Title: SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments
- Title(参考訳): SetupBench: 開発環境をブートストラップするソフトウェアエンジニアリングエージェントの能力を評価する
- Authors: Avi Arora, Jinu Jang, Roshanak Zilouchian Moghaddam,
- Abstract要約: 環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
- 参考スコア(独自算出の注目度): 2.184775414778289
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern Large Language Model (LLM) agents promise end to end assistance with real-world software tasks, yet existing benchmarks evaluate LLM agents almost exclusively in pre-baked environments where every dependency is pre-installed. To fill this gap, we introduce SetupBench, a 93 instance benchmark that isolates the environment-bootstrap skill: starting from a bare Linux sandbox, an agent must install packages, resolve dependency conflicts, initialize databases, and configure background services. Our tasks span seven language ecosystems, five database engines, and multi-service orchestration scenarios, each accompanies by a natural language problem statement and a deterministic success command. Through evaluation of OpenHands, a state-of-the-art coding agent, we find low success rates across task categories, with particular challenges in repository setup (38.9-57.4%) and local database configuration (20.0-53.3%). Our analysis reveals systematic failure modes including incomplete development tooling installation, hallucinated task constraints, and non-persistent environment modifications that break agent-human collaboration workflows. We identify substantial inefficiencies in agent exploration strategies, with 38-89% of actions being unnecessary compared to optimal human behavior. These findings highlight gaps in current agents' practical environment-bootstrap capabilities. By targeting this critical yet under-evaluated capability, SetupBench provides a rigorous yard-stick for the next generation of software developer agents aiming to solve end to end real-wold tasks.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)エージェントは、現実世界のソフトウェアタスクに対するエンドツーエンドのアシストを約束するが、既存のベンチマークでは、すべての依存がプリインストールされているプリインストールされた環境において、LLMエージェントをほぼ独占的に評価している。
このギャップを埋めるために、93のインスタンスベンチマークであるSetupBenchを紹介します。これは、環境とブートストラップのスキルを分離するものです: 素のLinuxサンドボックスから始めて、エージェントはパッケージをインストールし、依存関係の競合を解決し、データベースを初期化し、バックグラウンドサービスを設定する必要があります。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、そしてマルチサービスオーケストレーションシナリオにまたがっており、それぞれが自然言語問題ステートメントと決定論的成功コマンドで対応しています。
最先端のコーディングエージェントであるOpenHandsの評価を通じて、特にリポジトリセットアップ(38.9-57.4%)とローカルデータベース構成(20.0-53.3%)において、タスクカテゴリ間の成功率が低いことが判明した。
本分析では,不完全な開発ツールのインストール,幻覚的タスク制約,エージェントと人間のコラボレーションワークフローを損なう非永続的な環境修正など,系統的な障害モードを明らかにした。
エージェント探索戦略において,38~89%の行動は,最適な人間の行動よりも不必要である。
これらの知見は、現在のエージェントの実践的環境ブートストラップ能力のギャップを浮き彫りにする。
SetupBenchは、この批判的かつ過小評価された機能をターゲットにして、エンドツーエンドの実際の作業を解決することを目的とした、次世代のソフトウェア開発エージェントに厳格なヤードスティックを提供する。
関連論文リスト
- OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SOP-Bench: Complex Industrial SOPs for Evaluating LLM Agents [16.08820954102608]
大規模言語モデル(LLM)は、目覚ましい汎用推論と問題解決能力を示している。
LLMは、標準動作手順の厳格な遵守を要求する複雑な長期水平実行に苦慮している。
SOP-Benchは10の産業ドメインにわたる1,800以上のタスクのベンチマークである。
論文 参考訳(メタデータ) (2025-06-09T18:20:12Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。
Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。
人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:24:45Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。