論文の概要: HerAgent: Rethinking the Automated Environment Deployment via Hierarchical Test Pyramid
- arxiv url: http://arxiv.org/abs/2602.07871v1
- Date: Sun, 08 Feb 2026 08:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.840721
- Title: HerAgent: Rethinking the Automated Environment Deployment via Hierarchical Test Pyramid
- Title(参考訳): HerAgent: 階層テストピラミッドによる自動環境デプロイメントの再考
- Authors: Xiang Li, Siyu Lu, Sarro Federica, Claire Le Goues, He Ye,
- Abstract要約: 環境設定の成功は、単一のバイナリ信号ではなく、実行可能なエビデンスによって評価されるべきである。
本稿では,実行環境を段階的に構築する自動環境設定手法であるHerAgentを提案する。
- 参考スコア(独自算出の注目度): 12.146748258823337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated software environment setup is a prerequisite for testing, debugging, and reproducing failures, yet remains challenging in practice due to complex dependencies, heterogeneous build systems, and incomplete documentation. Recent work leverages large language models to automate this process, but typically evaluates success using weak signals such as dependency installation or partial test execution, which do not ensure that a project can actually run. In this paper, we argue that environment setup success should be evaluated through executable evidence rather than a single binary signal. We introduce the Environment Maturity Hierarchy, which defines three success levels based on progressively stronger execution requirements, culminating in successful execution of a project's main entry point. Guided by this hierarchy, we propose HerAgent, an automated environment setup approach that incrementally constructs executable environments through execution-based validation and repair. We evaluate HerAgent on four public benchmarks, where it outperforms all related work, achieving up to 79.6\% improvement due to its holistic understanding of project structure and dependencies. On complex C/C++ projects, HerAgent surpasses prior approaches by 66.7\%. In addition, HerAgent uniquely resolves 11-30 environment instances across the benchmarks that no prior method can configure.
- Abstract(参考訳): 自動化されたソフトウェア環境のセットアップは、テスト、デバッグ、再現のための前提条件であるが、実際には複雑な依存関係、異質なビルドシステム、不完全なドキュメントのために困難である。
最近の作業では、このプロセスを自動化するために大きな言語モデルを活用しているが、一般的には依存性のインストールや部分的なテスト実行といった弱い信号を使って成功を評価する。
本稿では,環境設定の成功は,単一のバイナリ信号ではなく,実行可能なエビデンスによって評価されるべきである,と論じる。
環境成熟度階層(Environment Maturity Hierarchy)は、プロジェクトのメインエントリポイントの実行を成功させるために、徐々に強力な実行要件に基づいて、3つの成功レベルを定義します。
この階層によって導かれたHerAgentは、実行ベースの検証と修復によって実行環境を段階的に構築する自動環境設定手法である。
私たちはHerAgentを4つの公開ベンチマークで評価し、プロジェクト構造と依存関係の全体的理解により、すべての関連作業を上回る79.6%の改善を実現しました。
複雑なC/C++プロジェクトでは、HerAgentは以前のアプローチを66.7\%上回る。
さらにHerAgentは、ベンチマーク全体で11-30の環境インスタンスをユニークに解決する。
関連論文リスト
- EvoConfig: Self-Evolving Multi-Agent Systems for Efficient Autonomous Environment Configuration [44.95469898974659]
EvoConfigは、マルチエージェントコラボレーションを最適化して適切なランタイム環境を構築する、効率的な環境設定フレームワークである。
詳細な実行後分析のための専門家診断モジュールと、専門家エージェントが自己フィードバックし、動的にエラー修正の優先順位を調整するための自己進化メカニズムを備えている。
EvoConfigは、Repo2Runの420レポジトリ上で、以前の最先端のRepo2Runと一致し、難しいケースに対して明確なゲインを提供する。
論文 参考訳(メタデータ) (2026-01-23T06:33:01Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - Multi-Docker-Eval: A `Shovel of the Gold Rush' Benchmark on Automatic Environment Building for Software Engineering [38.724704918577295]
マルチDocker-Evalベンチマークには、9つのプログラミング言語にまたがる40の現実世界リポジトリが含まれている。
現在のモデル全体の成功率は低く(F2Pは37.7%)、環境構築が主要なボトルネックとなっている。
これらの発見は、スケーラブルで完全に自動化されたSWEパイプラインを構築するための実行可能なガイドラインを提供する。
論文 参考訳(メタデータ) (2025-12-07T16:43:45Z) - Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents [71.85020581835042]
大規模言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、環境構成はボトルネックのままである。
既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。
本研究では,環境設定計画中の細粒度エージェントのプロセスレベルの軌道評価を行うEnconda-benchを紹介する。
論文 参考訳(メタデータ) (2025-10-29T16:59:07Z) - PIPer: On-Device Environment Setup via Online Reinforcement Learning [74.52354321028493]
自動化された環境設定メソッドは、任意のリポジトリに対して、手作業なしで完全に構成された環境を提供することで、開発者を支援することができる。
近年の研究では、最先端のLarge Language Models (LLMs) でさえ、このタスクの自動化に限られた成功をおさめていることが明らかになっている。
我々は、正しいスクリプトを生成するための教師付き微調整と、環境設定のタスクに適応するために、Reinforcement Learning with Verifiable Rewards(RLVR)を組み合わせる。
EnvBench-Python では,より大型の Qwen3-32B や GPT-4 と同等に動作可能な Qwen3-8B (コンシューマハードウェア上で動作可能なモデル) を実現する。
論文 参考訳(メタデータ) (2025-09-29T20:03:05Z) - SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文 参考訳(メタデータ) (2025-07-11T22:45:07Z) - EnvBench: A Benchmark for Automated Environment Setup [76.02998475135824]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。
環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。
このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文 参考訳(メタデータ) (2025-03-18T17:19:12Z) - PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - Repo2Run: Automated Building Executable Environment for Code Repository at Scale [10.143091612327602]
大規模なリポジトリに対して実行可能なテスト環境の構築を自動化するためのエージェントであるRepo2Runを紹介します。
Repo2RunはDockerイメージを反復的にビルドし、建物のフィードバックに基づいてユニットテストを実行し、Dockerfileを合成する。
結果のDockerfileを使用して、コードとテストを実行するDockerコンテナ環境を作成することができる。
論文 参考訳(メタデータ) (2025-02-19T12:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。