論文の概要: DevOps-Gym: Benchmarking AI Agents in Software DevOps Cycle
- arxiv url: http://arxiv.org/abs/2601.20882v1
- Date: Tue, 27 Jan 2026 18:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.346298
- Title: DevOps-Gym: Benchmarking AI Agents in Software DevOps Cycle
- Title(参考訳): DevOps-Gym: ソフトウェアDevOpsサイクルにおけるAIエージェントのベンチマーク
- Authors: Yuheng Tang, Kaijie Zhu, Bonan Ruan, Chuqi Zhang, Michael Yang, Hongwei Li, Suyue Guo, Tianneng Shi, Zekun Li, Christopher Kruegel, Giovanni Vigna, Dawn Song, William Yang Wang, Lun Wang, Yangruibo Ding, Zhenkai Liang, Wenbo Guo,
- Abstract要約: 現実世界のソフトウェアでDevOpsサイクルを扱うには、大規模なプロジェクトを分析し、動的プログラムの振る舞いを理解し、ドメイン固有のツールを活用し、シーケンシャルな決定を行う必要がある。
DevOps-Gymは、コアDevOpsタスク間でAIエージェントを評価するための、最初のエンドツーエンドベンチマークです。
- 参考スコア(独自算出の注目度): 84.01703913780946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Even though demonstrating extraordinary capabilities in code generation and software issue resolving, AI agents' capabilities in the full software DevOps cycle are still unknown. Different from pure code generation, handling the DevOps cycle in real-world software, including developing, deploying, and managing, requires analyzing large-scale projects, understanding dynamic program behaviors, leveraging domain-specific tools, and making sequential decisions. However, existing benchmarks focus on isolated problems and lack environments and tool interfaces for DevOps. We introduce DevOps-Gym, the first end-to-end benchmark for evaluating AI agents across core DevOps workflows: build and configuration, monitoring, issue resolving, and test generation. DevOps-Gym includes 700+ real-world tasks collected from 30+ projects in Java and Go. We develop a semi-automated data collection mechanism with rigorous and non-trivial expert efforts in ensuring the task coverage and quality. Our evaluation of state-of-the-art models and agents reveals fundamental limitations: they struggle with issue resolving and test generation in Java and Go, and remain unable to handle new tasks such as monitoring and build and configuration. These results highlight the need for essential research in automating the full DevOps cycle with AI agents.
- Abstract(参考訳): コード生成とソフトウェアの問題解決において異常な能力を示すが、完全なソフトウェアDevOpsサイクルにおけるAIエージェントの能力はまだ不明である。
純粋なコード生成と異なり、開発、デプロイ、管理を含む現実世界のソフトウェアにおけるDevOpsサイクルの扱いには、大規模プロジェクトの分析、動的プログラムの振る舞いの理解、ドメイン固有のツールの活用、シーケンシャルな決定が必要である。
しかしながら、既存のベンチマークでは、分離された問題に焦点が当てられ、DevOpsの環境とツールインターフェースが欠如している。
私たちはDevOps-Gymを紹介した。これは、ビルドとコンフィギュレーション、監視、問題解決、テスト生成といった、コアDevOpsワークフロー全体でAIエージェントを評価するための最初のエンドツーエンドベンチマークだ。
DevOps-Gymには、JavaとGoの30以上のプロジェクトから収集された700以上の実世界のタスクが含まれている。
タスクのカバレッジと品質を確保するために,厳密で非自明な専門家による半自動データ収集機構を開発した。
JavaとGoの問題解決とテスト生成に苦労し、監視やビルド、設定といった新しいタスクを処理できないままです。
これらの結果は、AIエージェントによる完全なDevOpsサイクルを自動化する上で、不可欠な研究の必要性を強調している。
関連論文リスト
- IDE-Bench: Evaluating Large Language Models as IDE Agents on Real-World Software Engineering Tasks [0.37823923040445995]
我々は、生の端末実行を超えるDocker化されたテストハーネスを提示します。
検索、構造化ファイル編集、フルスタックアプリケーションのテストツールに高レベルの抽象化を提供する。
評価のために、8つの未発表のC/C++、Java、MERNスタックに80のタスクを作成しました。
論文 参考訳(メタデータ) (2026-01-28T02:06:37Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - Vibe Coding vs. Agentic Coding: Fundamentals and Practical Implications of Agentic AI [0.36868085124383626]
レビューでは、AI支援ソフトウェア開発の新たなパラダイムとして、バイブコーディングとエージェントコーディングの2つを包括的に分析している。
Vibeのコーディングは、インプットベースで対話的なインタラクションを通じて、直感的で、ループ内の人間間インタラクションを強調する。
エージェントコーディングは、最小限の介入でタスクを計画、実行、テスト、反復できる目標駆動エージェントを通じて、自律的なソフトウェア開発を可能にする。
論文 参考訳(メタデータ) (2025-05-26T03:00:21Z) - TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [55.03911355902567]
我々は、デジタルワーカーと同じような方法で世界と対話するAIエージェントを評価するためのベンチマークであるTheAgentCompanyを紹介する。
最も競争力のあるエージェントは、タスクの30%を自律的に完了させることができる。
これは、実際の職場の設定でLMエージェントをシミュレートすることで、タスク自動化に関する微妙な絵を描く。
論文 参考訳(メタデータ) (2024-12-18T18:55:40Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - A Mixed Method Study of DevOps Challenges [2.2957483176038584]
DevOpsに関する議論を含む174K SOポストにトピックモデリングを適用することで、実証的研究を行う。
次に、専門家のDevOps実践者21人を対象に、実証的研究結果の検証と拡張を行いました。
論文 参考訳(メタデータ) (2024-03-25T05:35:40Z) - AutoDev: Automated AI-Driven Development [9.586330606828643]
AutoDevは完全に自動化されたAI駆動ソフトウェア開発フレームワークである。
ユーザはAutoDevの自律AIエージェントに割り当てられる複雑なソフトウェアエンジニアリングの目標を定義することができる。
AutoDevは、Dockerコンテナ内のすべての操作を集約することで、セキュアな開発環境を確立する。
論文 参考訳(メタデータ) (2024-03-13T07:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。