Fugu-MT 論文翻訳(概要): SetupX: Can LLM Agents Learn from Past Failures in Functionality-Correct Code Repository Setup?

論文の概要: SetupX: Can LLM Agents Learn from Past Failures in Functionality-Correct Code Repository Setup?

arxiv url: http://arxiv.org/abs/2605.26186v2
Date: Wed, 27 May 2026 04:01:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:55.074237
Title: SetupX: Can LLM Agents Learn from Past Failures in Functionality-Correct Code Repository Setup?
Title（参考訳）: SetupX: LLMエージェントは、関数型コードリポジトリのセットアップにおける過去の失敗から学ぶことができるか?
Authors: Zihang Zhou, Ziqian Ren, Yukai Wu, Yingjie Xiong, Wei Zhou, Chao Peng, Dong Zhang, Bingheng Yan, Xuanhe Zhou, Fan Wu,
Abstract要約: リポジトリのセットアップの目的は、実行環境(依存関係、ビルドスクリプトなど)を設定して、リポジトリのドキュメント化された機能を実行することだ。依存関係の不互換性、ツールチェーンの欠如、不完全なインストール、検証ストラテジーのミスマッチなど、リポジトリ固有のさまざまな障害が原因で、大きな課題が発生している。既存のエージェントは、リポジトリ間のエクスペリエンス転送、非可逆的な状態変更によるマルチステップトライアルとリペア、セットアップによる障害とリポジトリバグを区別するためのセットアップ結果の堅牢な検証をサポートするのに苦労している。
参考スコア（独自算出の注目度）: 15.31223781543037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Functionality-correct repository setup aims to configure execution environments (e.g., dependencies, build scripts) to successfully execute a repository's documented features. It presents significant challenges due to diverse, repository-specific failures, including dependency incompatibilities, missing toolchains, incomplete installations, and verification-strategy mismatches. Existing LLM agents struggle to robustly resolve these issues, specifically failing to support (1) cross-repository experience transfer, (2) multi-step trial-and-repair under non-invertible state changes, and (3) robust verification of setup outcomes to distinguish setup-induced failures from repository bugs. To address this, we introduce SetupX, an experiential learning-based setup framework. First, we construct a Self-Evolving Experience Representation (XPU), a dual-modality knowledge unit encoding setup signals, textual guidance, executable actions to dynamically transfer verified environment fixes to unseen repositories. Second, we employ Experience-Augmented Speculative Execution backed by a LIFO Docker snapshot stack, enabling the agent to proactively trial fixes and safely roll back to known-good states. Third, we introduce a Prosecutor-Judge Verification Protocol that separates evidence collection from final judgment, enabling more reliable setup verification beyond superficial build-time metrics. Evaluation results on carefully-crafted benchmarks show SetupX achieves highest performance (e.g., 92% pass rate) and outperforms the strongest baseline by over 19%. Crucially, SetupX excels in complex multi-repository setup requiring coordinating multiple interconnected services across different containers. The code repository is available at https://github.com/OpenDataBox/SetupX.
Abstract（参考訳）: 関数型リポジトリのセットアップの目的は、実行環境(依存関係、ビルドスクリプトなど)を設定して、リポジトリのドキュメント化された機能を実行することだ。依存関係の不互換性、ツールチェーンの欠如、不完全なインストール、検証ストラテジーのミスマッチなど、リポジトリ固有のさまざまな障害が原因で、大きな課題が発生している。既存のLLMエージェントは,(1)クロスリポジトリ体験転送のサポートの欠如,(2)非可逆的な状態変化下での複数ステップのトライ・アンド・リペア,(3)セットアップエラーとリポジトリバグを区別するためのセットアップ結果の堅牢な検証など,これらの問題を解決するのに苦労している。そこで我々は,経験的学習に基づくセットアップフレームワークであるSetupXを紹介した。まず、セットアップ信号、テキストガイダンス、実行可能アクションを符号化した二重モード知識ユニットである自己進化体験表現(XPU)を構築し、検証済みの環境修正を目に見えないリポジトリに動的に転送する。次に、LIFO DockerスナップショットスタックによってバックアップされたExperience-Augmented Speculative Executionを採用しています。第三に、我々は証拠収集を最終判断から切り離し、表面的なビルドタイムメトリクスを超えてより信頼性の高い設定検証を可能にする、検察・予算検証プロトコルを導入します。慎重に構築されたベンチマークによる評価結果によると、SetupXは最高パフォーマンス(例えば、パスレート92%)を達成し、最強のベースラインを19%以上上回っている。重要な点として、SetupXは複雑なマルチリポジトリ設定に優れており、異なるコンテナをまたいだ複数の相互接続サービスを調整する必要がある。コードリポジトリはhttps://github.com/OpenDataBox/SetupX.comで公開されている。

関連論文リスト

RepoMirage: Probing Repository Context Reasoning in Code Agents with Perturbations [51.43574078961796]
本稿では,SWE-Bench Verified上に構築された2段階評価スイートRepoMirageを紹介する。 RepoMirage-Perturbは、リポジトリレベルの摂動を保存する3つのタイプのセマンティクスを適用している。 RepoAnchorは、下流の問題解決からリポジトリの探索を分離する構造第一のプロトタイプワークフローである。
論文参考訳（メタデータ） (2026-05-25T06:26:43Z)
RepoZero: Can LLMs Generate a Code Repository from Scratch? [13.87780777614509]
RepoZeroは、完全に自動化された実行ベースのレポジトリレベルの生成をスクラッチから検証できる最初のベンチマークである。我々の結果は、RepoZeroをエンドツーエンドのコード生成のための、困難でスケーラブルで信頼性の高いテストベッドとして確立しています。
論文参考訳（メタデータ） (2026-05-08T01:56:02Z)
BUILD-AND-FIND: An Effort-Aware Protocol for Evaluating Agent-Managed Codebases [0.0]
BUILD-AND-FINDは、下流エージェントが生成されたリポジトリから意図した選択を復元できるかどうかを評価するプロトコルである。各タスクに対して、ビルダーは隠されたリポジトリの仕様を見て、仕様に書かれた複数選択の質問バンクを作成します。このプロトコルは、行動の正しさをアーティファクト側のリカバリから切り離し、リカバリの正確性、再現性、実装のカバレッジ、検査の労力を報告します。
論文参考訳（メタデータ） (2026-05-07T12:35:27Z)
DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。 DoVerは失敗試験の18～28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30～60%を検証または否定する。
論文参考訳（メタデータ） (2025-12-07T09:23:48Z)
Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents [71.85020581835042]
大規模言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、環境構成はボトルネックのままである。既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。本研究では,環境設定計画中の細粒度エージェントのプロセスレベルの軌道評価を行うEnconda-benchを紹介する。
論文参考訳（メタデータ） (2025-10-29T16:59:07Z)
Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。 AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文参考訳（メタデータ） (2025-09-29T18:20:27Z)
EnvBench: A Benchmark for Automated Environment Setup [76.02998475135824]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文参考訳（メタデータ） (2025-03-18T17:19:12Z)
Automated Benchmark Generation for Repository-Level Coding Tasks [7.305342793164905]
SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。 i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
論文参考訳（メタデータ） (2025-03-10T17:42:49Z)
On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文参考訳（メタデータ） (2024-06-17T10:45:22Z)
Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。 Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。