論文の概要: Can AI Agents Generate Microservices? How Far are We?
- arxiv url: http://arxiv.org/abs/2603.09004v1
- Date: Mon, 09 Mar 2026 22:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.878482
- Title: Can AI Agents Generate Microservices? How Far are We?
- Title(参考訳): AIエージェントはマイクロサービスを生成できるのか?
- Authors: Bassam Adnan, Matteo Esposito, Davide Taibi, Karthik Vaidhyanathan,
- Abstract要約: 3つのエージェント、4つのプロジェクト、2つのプロンプト戦略、2つのシナリオで生成された144を評価します。
Minimalは、50~76%の単体テストパス率で、インクリメンタル世代において詳細なものよりもパフォーマンスがよい。
クリーンな状態生成は、APIコントラクトの強い準拠を示す、より高い統合テストパスレート(88%)を生み出した。
- 参考スコア(独自算出の注目度): 1.108199702093187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have advanced code generation, but their use for generating microservices with explicit dependencies and API contracts remains understudied. We examine whether AI agents can generate functional microservices and how different forms of contextual information influence their performance. We assess 144 generated microservices across 3 agents, 4 projects, 2 prompting strategies, and 2 scenarios. Incremental generation operates within existing systems and is evaluated with unit tests. Clean state generation starts from requirements alone and is evaluated with integration tests. We analyze functional correctness, code quality, and efficiency. Minimal prompts outperformed detailed ones in incremental generation, with 50-76% unit test pass rates. Clean state generation produced higher integration test pass rates (81-98%), indicating strong API contract adherence. Generated code showed lower complexity than human baselines. Generation times varied widely across agents, averaging 6-16 minutes per service. AI agents can produce microservices with maintainable code, yet inconsistent correctness and reliance on human oversight show that fully autonomous microservice generation is not yet achievable.
- Abstract(参考訳): LLMには高度なコード生成機能があるが、明示的な依存関係とAPIコントラクトを備えたマイクロサービスの生成には、まだ検討されていない。
AIエージェントが機能的マイクロサービスを生成できるかどうか、コンテキスト情報の異なる形態がパフォーマンスに与える影響について検討する。
3つのエージェント、4つのプロジェクト、2つのプロンプト戦略、2つのシナリオにわたる144の生成されたマイクロサービスを評価します。
増分生成は既存のシステム内で動作し、単体テストで評価される。
クリーンな状態生成は要件のみから始まり、統合テストで評価される。
機能的正確性、コード品質、効率を分析します。
Minimalは、50~76%の単体テストパス率で、インクリメンタル世代において詳細なものよりもパフォーマンスがよい。
クリーンな状態生成により、統合テストのパスレート(81~98%)が向上し、API契約の遵守が強かった。
生成されたコードは、人間のベースラインよりも複雑さが低い。
生成時間はエージェントによって大きく異なり、平均で1回平均6-16分であった。
AIエージェントは、メンテナンス可能なコードでマイクロサービスを生成できるが、人間の監視による不整合の正しさと信頼は、完全に自律的なマイクロサービス生成がまだ達成できないことを示している。
関連論文リスト
- RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository [52.98970048197381]
RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。
18のドメインと11のフレームワークに106のリポジトリ(60のPython、46のJava)があり、1,258のAPIエンドポイントと2,335のテストケースが検証されている。
その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2026-01-20T13:19:20Z) - Impact of Code Context and Prompting Strategies on Automated Unit Test Generation with Modern General-Purpose Large Language Models [0.0]
ジェネレーティブAIは、ソフトウェアエンジニアリングにおいて注目を集めている。
単体テストはテストケースの大部分を占め、しばしばスキーマ的である。
本稿では,コードコンテキストが単体テストの品質と妥当性に与える影響について検討する。
論文 参考訳(メタデータ) (2025-07-18T11:23:17Z) - From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking [48.90371827091671]
AutoExperimentは、AIエージェントの機械学習実験の実装と実行能力を評価するベンチマークである。
我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。
本研究は、長期コード生成、文脈検索、自律的な実験実行における重要な課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-24T15:39:20Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。