論文の概要: MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering
- arxiv url: http://arxiv.org/abs/2601.22859v2
- Date: Mon, 02 Feb 2026 03:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 15:03:50.886221
- Title: MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering
- Title(参考訳): MEnvAgent: 検証可能なソフトウェアエンジニアリングのためのスケーラブルな多言語環境構築
- Authors: Chuanzhe Guo, Jingjing Wu, Sijun He, Yang Chen, Zhaoqi Kuang, Shilong Fan, Bingjin Chen, Siqi Bao, Jing Liu, Hua Wu, Qingfu Zhu, Wanxiang Che, Haifeng Wang,
- Abstract要約: 本稿では,自動環境構築のためのフレームワークであるMEnvAgentを紹介する。
MEnvAgentは、建設失敗を自律的に解決するマルチエージェント計画実行検証アーキテクチャを採用している。
MEnvData-SWEは,これまでで最大の,現実的な検証可能なDocker環境のポリグロットデータセットである。
- 参考スコア(独自算出の注目度): 54.236614097082395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evolution of Large Language Model (LLM) agents for software engineering (SWE) is constrained by the scarcity of verifiable datasets, a bottleneck stemming from the complexity of constructing executable environments across diverse languages. To address this, we introduce MEnvAgent, a Multi-language framework for automated Environment construction that facilitates scalable generation of verifiable task instances. MEnvAgent employs a multi-agent Planning-Execution-Verification architecture to autonomously resolve construction failures and integrates a novel Environment Reuse Mechanism that reduces computational overhead by incrementally patching historical environments. Evaluations on MEnvBench, a new benchmark comprising 1,000 tasks across 10 languages, demonstrate that MEnvAgent outperforms baselines, improving Fail-to-Pass (F2P) rates by 8.6% while reducing time costs by 43%. Additionally, we demonstrate the utility of MEnvAgent by constructing MEnvData-SWE, the largest open-source polyglot dataset of realistic verifiable Docker environments to date, alongside solution trajectories that enable consistent performance gains on SWE tasks across a wide range of models. Our code, benchmark, and dataset are available at https://github.com/ernie-research/MEnvAgent.
- Abstract(参考訳): ソフトウェア工学(SWE)のための大規模言語モデル(LLM)エージェントの進化は、検証可能なデータセットの不足によって制約されている。
そこで我々は,検証可能なタスクインスタンスのスケーラブルな生成を容易にする,自動環境構築のための多言語フレームワークMEnvAgentを紹介する。
MEnvAgentは、建設失敗を自律的に解決するためのマルチエージェント計画実行検証アーキテクチャを採用し、歴史的環境を漸進的にパッチすることで計算オーバーヘッドを低減する新しい環境再利用メカニズムを統合している。
10言語にわたる1000のタスクからなる新しいベンチマークであるMEnvBenchの評価によると、MEnvAgentはベースラインを上回り、Fail-to-Pass(F2P)レートを8.6%改善し、時間コストを43%削減した。
さらに、私たちはMEnvData-SWEという、現実的に検証可能なDocker環境の最大のオープンソースポリグロットデータセットを構築することで、MEnvAgentの有用性を実証しています。
私たちのコード、ベンチマーク、データセットはhttps://github.com/ernie-research/MEnvAgent.comで公開されています。
関連論文リスト
- Z-Space: A Multi-Agent Tool Orchestration Framework for Enterprise-Grade LLM Automation [3.518072776386001]
本稿では,データ生成指向型マルチエージェント協調ツール実行フレームワークZ-Spaceを提案する。
このフレームワークはElemeプラットフォームの技術部門にデプロイされており、大規模なテストデータ生成シナリオを提供している。
生産データは、ツール推論における平均トークン消費を96.26%削減していることを示している。
論文 参考訳(メタデータ) (2025-11-23T03:59:14Z) - Using Copilot Agent Mode to Automate Library Migration: A Quantitative Assessment [0.5735035463793009]
ソフトウェアシステムを最新の状態に保つことは、技術的負債、セキュリティ上の脆弱性、そしてレガシーシステムの典型的な剛性を避けるために不可欠である。
大規模言語モデル(LLM)やエージェントプログラミングシステムの最近の進歩は、そのような保守作業を自動化する新しい機会を提供する。
論文 参考訳(メタデータ) (2025-10-30T17:05:13Z) - EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments [11.97783742296183]
Embodied Mobile Manipulation in Open Environmentsは、エージェントがユーザーの指示を解釈し、連続した空間で長時間の日常的なタスクを実行する必要があるベンチマークである。
Open EnvironmentsにおけるEmbodied Mobile Manipulationは、より多様な評価のための3つの新しいメトリクスとともに、ハイレベルで低レベルな実施タスクを統一されたフレームワークにシームレスに統合します。
We design model, a sophisticated agent system, a LLM with Direct Preference Optimization (DPO), light weighted navigation and operation model, and multiple error detection mechanism。
論文 参考訳(メタデータ) (2025-03-11T16:42:36Z) - DatawiseAgent: A Notebook-Centric LLM Agent Framework for Adaptive and Robust Data Science Automation [10.390461679868197]
我々は、適応的で堅牢なデータサイエンス自動化のためのノートブック中心の大規模言語モデル(LLM)エージェントフレームワークであるDatawiseAgentを紹介する。
人間のデータサイエンティストが計算ノートブックでどのように機能するかに触発されたDatawiseAgentは、統一された相互作用表現とマルチステージアーキテクチャを導入した。
論文 参考訳(メタデータ) (2025-03-10T08:32:33Z) - nvAgent: Automated Data Visualization from Natural Language via Collaborative Agent Workflow [9.676697360425196]
自然言語から可視化へ(NL2Vis)は、自然言語記述を与えられたテーブルの視覚表現に変換する。
我々はNL2Visのための協調エージェントワークフローであるnvAgentを提案する。
新しいVisEvalベンチマークに関する総合的な評価は、nvAgentが最先端のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-07T16:03:08Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。