論文の概要: Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2510.25694v1
- Date: Wed, 29 Oct 2025 16:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.811945
- Title: Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents
- Title(参考訳): ソフトウェア工学エージェントの環境設定のためのプロセスレベル軌道評価
- Authors: Jiayi Kuang, Yinghui Li, Xin Zhang, Yangning Li, Di Yin, Xing Sun, Ying Shen, Philip S. Yu,
- Abstract要約: 大規模言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、環境構成はボトルネックのままである。
既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。
本研究では,環境設定計画中の細粒度エージェントのプロセスレベルの軌道評価を行うEnconda-benchを紹介する。
- 参考スコア(独自算出の注目度): 71.85020581835042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model-based agents show promise for software engineering, but environment configuration remains a bottleneck due to heavy manual effort and scarce large-scale, high-quality datasets. Existing benchmarks assess only end-to-end build/test success, obscuring where and why agents succeed or fail. We introduce the Environment Configuration Diagnosis Benchmark, Enconda-bench, which provides process-level trajectory assessment of fine-grained agent capabilities during environment setup-planning, perception-driven error diagnosis, feedback-driven repair, and action to execute final environment configuration. Our task instances are automatically constructed by injecting realistic README errors and are validated in Docker for scalable, high-quality evaluation. Enconda-bench combines process-level analysis with end-to-end executability to enable capability assessments beyond aggregate success rates. Evaluations across state-of-the-art LLMs and agent frameworks show that while agents can localize errors, they struggle to translate feedback into effective corrections, limiting end-to-end performance. To our knowledge, Enconda-bench is the first framework to provide process-level internal capability assessment for environment configuration, offering actionable insights for improving software engineering agents.
- Abstract(参考訳): 大規模な言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、大量の手作業と大規模で高品質なデータセットが不足しているため、環境構成はボトルネックのままである。
既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。
本研究では,環境構成診断ベンチマークであるEnconda-benchを導入し,環境設定計画,知覚駆動型エラー診断,フィードバック駆動型修復,最終環境設定の実行時のプロセスレベルのきめ細かなエージェント機能の評価を行う。
私たちのタスクインスタンスは、現実的なREADMEエラーを注入して自動的に構築され、スケーラブルで高品質な評価のためにDockerで検証されます。
Enconda-benchは、プロセスレベルの分析とエンドツーエンドの実行可能性を組み合わせることで、成功率以上の能力評価を可能にする。
最先端のLLMとエージェントフレームワークによる評価は、エージェントがエラーをローカライズできる一方で、フィードバックを効果的な修正に変換し、エンドツーエンドのパフォーマンスを制限するのに苦労していることを示している。
私たちの知る限り、Enconda-benchは環境設定のためのプロセスレベルの内部能力評価を提供する最初のフレームワークであり、ソフトウェアエンジニアリングエージェントを改善するための実用的な洞察を提供する。
関連論文リスト
- Detecting Pipeline Failures through Fine-Grained Analysis of Web Agents [0.48156730450374763]
この研究は既存のベンチマークを分析し、きめ細かい診断ツールの欠如を強調している。
本稿では,エージェントパイプラインを解釈可能なステージに分解し,詳細なエラー解析を行うモジュール評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T19:34:49Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - Automated Validation of LLM-based Evaluators for Software Engineering Artifacts [0.7548538278943616]
REFINE(Ranking Evaluators for FIne grained Nuanced Evaluation)は、大規模言語モデル(LLM)をベンチマークする自動化フレームワークである。
REFINEは、徐々に品質が低下したアーティファクトを自動的に合成するために、新しい生成技術を適用している。
それぞれの候補評価器の構成を、そのランクが期待された順序にどの程度近いかを測定することで定量化する。
論文 参考訳(メタデータ) (2025-08-04T18:52:01Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文 参考訳(メタデータ) (2025-07-11T22:45:07Z) - SWE-bench Goes Live! [39.295587503671015]
大規模言語モデル(LLM)のためのライブ更新可能なベンチマークであるSWE-bench-Liveを提案する。
最初のリリースは、2024年以降に作成された実際のGitHubイシューから派生した1,319のタスクで構成されています。
私たちのベンチマークの中心は、インスタンス生成から環境設定までのプロセス全体を合理化する自動キュレーションパイプラインであるメソッドです。
論文 参考訳(メタデータ) (2025-05-29T13:09:44Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。