論文の概要: Multi-Docker-Eval: A `Shovel of the Gold Rush' Benchmark on Automatic Environment Building for Software Engineering
- arxiv url: http://arxiv.org/abs/2512.06915v1
- Date: Sun, 07 Dec 2025 16:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.584862
- Title: Multi-Docker-Eval: A `Shovel of the Gold Rush' Benchmark on Automatic Environment Building for Software Engineering
- Title(参考訳): マルチDocker-Eval: ソフトウェアエンジニアリングのための自動環境構築に関する‘ゴールドラッシュのハイライト’ベンチマーク
- Authors: Kelin Fu, Tianyu Liu, Zeyu Shang, Yingwei Ma, Jian Yang, Jiaheng Liu, Kaigui Bian,
- Abstract要約: マルチDocker-Evalベンチマークには、9つのプログラミング言語にまたがる40の現実世界リポジトリが含まれている。
現在のモデル全体の成功率は低く(F2Pは37.7%)、環境構築が主要なボトルネックとなっている。
これらの発見は、スケーラブルで完全に自動化されたSWEパイプラインを構築するための実行可能なガイドラインを提供する。
- 参考スコア(独自算出の注目度): 38.724704918577295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated environment configuration is a critical bottleneck in scaling software engineering (SWE) automation. To provide a reliable evaluation standard for this task, we present Multi-Docker-Eval benchmark. It includes 40 real-world repositories spanning 9 programming languages and measures both success in achieving executable states and efficiency under realistic constraints. Our extensive evaluation of state-of-the-art LLMs and agent frameworks reveals key insights: (1) the overall success rate of current models is low (F2P at most 37.7%), with environment construction being the primary bottleneck; (2) model size and reasoning length are not decisive factors, and open-source models like DeepSeek-V3.1 and Kimi-K2 are competitive in both efficiency and effectiveness; (3) agent framework and programming language also have significantly influence on success rate. These findings provide actionable guidelines for building scalable, fully automated SWE pipelines.
- Abstract(参考訳): 自動化された環境構成は、ソフトウェアエンジニアリング(SWE)自動化のスケーリングにおいて重要なボトルネックとなります。
このタスクの信頼性評価基準として,マルチDocker-Evalベンチマークを提案する。
9つのプログラミング言語にまたがる40の現実世界のリポジトリが含まれており、実行可能状態の達成と現実的な制約下での効率の両面での成功を測っている。
1) 現在のモデルの成功率は低く(F2Pは少なくとも37.7%)、環境構築が主なボトルネックであり、(2)モデルのサイズと推論長は決定的な要因ではなく、DeepSeek-V3.1やKimi-K2といったオープンソースモデルは効率と効率の両方で競合する。
これらの発見は、スケーラブルで完全に自動化されたSWEパイプラインを構築するための実行可能なガイドラインを提供する。
関連論文リスト
- LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。
SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。
SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文 参考訳(メタデータ) (2025-11-07T18:01:32Z) - The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution [86.4588675093384]
Toolathlonは、多様なアプリやツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークである。
このベンチマークには、手動でソースまたはクラフトされたタスクが108つ含まれており、平均20回以上にわたって複数のアプリと対話する必要がある。
Toolathlonは、より有能な言語エージェントを現実の長期タスク実行のために開発することを期待しています。
論文 参考訳(メタデータ) (2025-10-29T17:32:49Z) - Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents [71.85020581835042]
大規模言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、環境構成はボトルネックのままである。
既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。
本研究では,環境設定計画中の細粒度エージェントのプロセスレベルの軌道評価を行うEnconda-benchを紹介する。
論文 参考訳(メタデータ) (2025-10-29T16:59:07Z) - Layout-Aware Parsing Meets Efficient LLMs: A Unified, Scalable Framework for Resume Information Extraction and Evaluation [31.356673356827432]
自動抽出・評価のためのレイアウト認識・効率最適化フレームワークを提案する。
私たちのシステムはAlibabaのインテリジェントなHRプラットフォームに完全にデプロイされています。
論文 参考訳(メタデータ) (2025-10-10T07:01:35Z) - InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [71.37579508777843]
大規模言語モデル(LLM)は、複雑な推論機能を実現することによって、人工知能に革命をもたらした。
このギャップに対処するため、1000以上のドメイン分散タスク環境からなるオープンソースのフレームワークであるInternBootcampを紹介します。
論文 参考訳(メタデータ) (2025-08-12T05:00:00Z) - Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes [33.80591142965565]
CODE2BENCHは、実世界のGitHubリポジトリから、堅牢で汚染に強いベンチマークを動的に構築するためのパイプラインである。
特に、CODE2BENCHは、(1) トレーニングデータの汚染を最小限に抑えるために、最近のコードの周期的取り込みによって達成される自動ダイナミズム、(2) 依存レベルの制御されたベンチマークインスタンスへの関数の構造化可能なスコープグラフベースの依存性分析、(3) 厳密なテストスイートの自動合成のためのプロパティベーステスト(PBT)の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-08-10T05:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。