論文の概要: EvoConfig: Self-Evolving Multi-Agent Systems for Efficient Autonomous Environment Configuration
- arxiv url: http://arxiv.org/abs/2601.16489v1
- Date: Fri, 23 Jan 2026 06:33:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.572293
- Title: EvoConfig: Self-Evolving Multi-Agent Systems for Efficient Autonomous Environment Configuration
- Title(参考訳): EvoConfig: 効率的な自律環境構成のための自己進化型マルチエージェントシステム
- Authors: Xinshuai Guo, Jiayi Kuang, Linyue Pan, Yinghui Li, Yangning Li, Hai-Tao Zheng, Ying Shen, Di Yin, Xing Sun,
- Abstract要約: EvoConfigは、マルチエージェントコラボレーションを最適化して適切なランタイム環境を構築する、効率的な環境設定フレームワークである。
詳細な実行後分析のための専門家診断モジュールと、専門家エージェントが自己フィードバックし、動的にエラー修正の優先順位を調整するための自己進化メカニズムを備えている。
EvoConfigは、Repo2Runの420レポジトリ上で、以前の最先端のRepo2Runと一致し、難しいケースに対して明確なゲインを提供する。
- 参考スコア(独自算出の注目度): 44.95469898974659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A reliable executable environment is the foundation for ensuring that large language models solve software engineering tasks. Due to the complex and tedious construction process, large-scale configuration is relatively inefficient. However, most methods always overlook fine-grained analysis of the actions performed by the agent, making it difficult to handle complex errors and resulting in configuration failures. To address this bottleneck, we propose EvoConfig, an efficient environment configuration framework that optimizes multi-agent collaboration to build correct runtime environments. EvoConfig features an expert diagnosis module for fine-grained post-execution analysis, and a self-evolving mechanism that lets expert agents self-feedback and dynamically adjust error-fixing priorities in real time. Empirically, EvoConfig matches the previous state-of-the-art Repo2Run on Repo2Run's 420 repositories, while delivering clear gains on harder cases: on the more challenging Envbench, EvoConfig achieves a 78.1% success rate, outperforming Repo2Run by 7.1%. Beyond end-to-end success, EvoConfig also demonstrates stronger debugging competence, achieving higher accuracy in error identification and producing more effective repair recommendations than existing methods.
- Abstract(参考訳): 信頼性の高い実行環境は、大きな言語モデルがソフトウェア工学のタスクを解くことを保証する基盤である。
複雑で面倒な建設プロセスのため、大規模な構成は比較的非効率である。
しかし、ほとんどのメソッドはエージェントが実行するアクションのきめ細かい分析を常に見落としており、複雑なエラーを処理し、結果として構成上の障害が発生する。
このボトルネックに対処するために,マルチエージェントコラボレーションを最適化して適切なランタイム環境を構築する,効率的な環境設定フレームワークであるEvoConfigを提案する。
EvoConfigは、詳細な実行後分析のための専門家診断モジュールと、専門家エージェントが自己フィードバックを行い、エラー修正の優先順位をリアルタイムで動的に調整する自己進化メカニズムを備えている。
経験的に、EvoConfigは、Repo2Runの420レポジトリで以前の最先端のRepo2Runとマッチすると同時に、難しいケースに対して明確な利益をもたらしている。
エンドツーエンドの成功以外にも、EvoConfigはより強力なデバッグ能力を示し、エラー識別の精度を高め、既存のメソッドよりも効果的な修正レコメンデーションを生成する。
関連論文リスト
- SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。
エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。
textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。
本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文 参考訳(メタデータ) (2025-12-17T12:25:05Z) - Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents [71.85020581835042]
大規模言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、環境構成はボトルネックのままである。
既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。
本研究では,環境設定計画中の細粒度エージェントのプロセスレベルの軌道評価を行うEnconda-benchを紹介する。
論文 参考訳(メタデータ) (2025-10-29T16:59:07Z) - DecEx-RAG: Boosting Agentic Retrieval-Augmented Generation with Decision and Execution Optimization via Process Supervision [50.89715397781075]
Agentic Retrieval-Augmented Generation (Agentic RAG)は、複雑なタスクの処理能力を向上する。
我々は,決定と実行を取り入れたマルコフ決定プロセス(MDP)としてRAGをモデル化したDecEx-RAGを提案する。
DecEx-RAGは6つのデータセットに対して平均6.2%の絶対的なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-07T08:49:22Z) - CoE-Ops: Collaboration of LLM-based Experts for AIOps Question-Answering [10.093542296324845]
本稿では,汎用的な大規模言語モデルタスク分類器を組み込んだCoE-Opsフレームワークを提案する。
質問応答タスクを高レベル(コード、ビルド、テストなど)と低レベル(デフォルト分析、異常検出など)の両方で処理する際のフレームワークの機能を改善するために、検索強化生成メカニズムが導入された。
実験の結果,CoE-Opsは既存のCoE手法と比較して,高レベルのAIOpsタスクに対して最大8%の精度向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-07-25T06:17:11Z) - EvoAgentX: An Automated Framework for Evolving Agentic Workflows [21.464686605154792]
本稿では,マルチエージェントシステムの生成,実行,進化的最適化を自動化するオープンソースプラットフォームであるEvoAgentXを紹介する。
我々は,HotPotQA,MBPP,MATH上のEvoAgentXをマルチホップ推論,コード生成,数学的問題解決のためにそれぞれ評価し,GAIAを用いて実世界のタスクで評価する。
論文 参考訳(メタデータ) (2025-07-04T14:43:10Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Repo2Run: Automated Building Executable Environment for Code Repository at Scale [10.143091612327602]
大規模なリポジトリに対して実行可能なテスト環境の構築を自動化するためのエージェントであるRepo2Runを紹介します。
Repo2RunはDockerイメージを反復的にビルドし、建物のフィードバックに基づいてユニットテストを実行し、Dockerfileを合成する。
結果のDockerfileを使用して、コードとテストを実行するDockerコンテナ環境を作成することができる。
論文 参考訳(メタデータ) (2025-02-19T12:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。