論文の概要: A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System
- arxiv url: http://arxiv.org/abs/2510.09721v1
- Date: Fri, 10 Oct 2025 06:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.588226
- Title: A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System
- Title(参考訳): LLM-Empowered Agentic System のソフトウェア工学におけるベンチマークとソリューションに関する総合調査
- Authors: Jiale Guo, Suizhi Huang, Mei Li, Dong Huang, Xingsheng Chen, Regina Zhang, Zhijiang Guo, Han Yu, Siu-Ming Yiu, Christian Jensen, Pietro Lio, Kwok-Yan Lam,
- Abstract要約: 本調査は, LLMを利用したソフトウェア工学の総合的解析を初めて行ったものである。
我々は150以上の最近の論文を分析し、2つの主要な次元にまたがる包括的分類に分類する。
我々の分析は、この分野が単純なプロンプトエンジニアリングから複雑なエージェントシステムへとどのように進化してきたかを明らかにする。
- 参考スコア(独自算出の注目度): 54.933911409697714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of LLMs into software engineering has catalyzed a paradigm shift from traditional rule-based systems to sophisticated agentic systems capable of autonomous problem-solving. Despite this transformation, the field lacks a comprehensive understanding of how benchmarks and solutions interconnect, hindering systematic progress and evaluation. This survey presents the first holistic analysis of LLM-empowered software engineering, bridging the critical gap between evaluation and solution approaches. We analyze 150+ recent papers and organize them into a comprehensive taxonomy spanning two major dimensions: (1) Solutions, categorized into prompt-based, fine-tuning-based, and agent-based paradigms, and (2) Benchmarks, covering code generation, translation, repair, and other tasks. Our analysis reveals how the field has evolved from simple prompt engineering to complex agentic systems incorporating planning and decomposition, reasoning and self-refinement, memory mechanisms, and tool augmentation. We present a unified pipeline that illustrates the complete workflow from task specification to final deliverables, demonstrating how different solution paradigms address varying complexity levels across software engineering tasks. Unlike existing surveys that focus on isolated aspects, we provide full-spectrum coverage connecting 50+ benchmarks with their corresponding solution strategies, enabling researchers to identify optimal approaches for specific evaluation criteria. Furthermore, we identify critical research gaps and propose actionable future directions, including multi-agent collaboration frameworks, self-evolving code generation systems, and integration of formal verification with LLM-based methods. This survey serves as a foundational resource for researchers and practitioners seeking to understand, evaluate, and advance LLM-empowered software engineering systems.
- Abstract(参考訳): ソフトウェア工学へのLLMの統合は、従来のルールベースのシステムから、自律的な問題解決が可能な高度なエージェントシステムへのパラダイムシフトを引き起こした。
この変換にもかかわらず、この分野はベンチマークとソリューションの相互接続に関する包括的な理解を欠き、体系的な進歩と評価を妨げる。
本調査では,LCMを利用したソフトウェア工学の総合的な解析を行い,評価とソリューションアプローチの間に重要なギャップを埋める。
我々は最近150以上の論文を分析し、(1)素早い、微調整に基づく、そしてエージェントベースのパラダイムに分類されるソリューションと(2)コード生成、翻訳、修復、その他のタスクをカバーするベンチマークの2つの主要な側面にまたがる包括的分類に分類する。
我々の分析は、シンプルなプロンプトエンジニアリングから、計画と分解、推論と自己補充、メモリ機構、ツール拡張を含む複雑なエージェントシステムへと、どのように発展してきたかを明らかにする。
タスク仕様から最終納品までの完全なワークフローを示し、異なるソリューションパラダイムがソフトウェアエンジニアリングタスクの複雑さレベルにどのように対処するかを示す、統一されたパイプラインを提示します。
孤立した側面に焦点を当てた既存の調査とは異なり、50以上のベンチマークと対応するソリューション戦略を結びつけるフルスペクトルカバレッジを提供し、研究者は特定の評価基準に対する最適なアプローチを特定できる。
さらに,重要な研究ギャップを特定し,多エージェント協調フレームワーク,自己進化型コード生成システム,LCM方式による形式検証の統合など,実用的な今後の方向性を提案する。
この調査は、LLMを利用したソフトウェアエンジニアリングシステムを理解し、評価し、前進させようとする研究者や実践者の基盤となるリソースとなっている。
関連論文リスト
- A Survey on Code Generation with LLM-based Agents [61.474191493322415]
大規模言語モデル(LLM)を利用したコード生成エージェントは、ソフトウェア開発パラダイムに革命をもたらしている。
LLMは3つのコア特徴によって特徴づけられる。
本稿では,LLMに基づくコード生成エージェントの分野を体系的に調査する。
論文 参考訳(メタデータ) (2025-07-31T18:17:36Z) - Towards AI Search Paradigm [42.62890561623222]
我々は,人間の情報処理と意思決定をエミュレートできる次世代検索システムの青写真であるAI Search Paradigmを紹介する。
このパラダイムは、4つのLCMを動力とするエージェントのモジュラーアーキテクチャを採用し、情報要求の完全な範囲に動的に適応する。
この研究は、これらのコンポーネントの詳細なガイドを提供することによって、信頼できる、適応的でスケーラブルなAI検索システムの開発を知らせることを目的としている。
論文 参考訳(メタデータ) (2025-06-20T17:42:13Z) - From Standalone LLMs to Integrated Intelligence: A Survey of Compound Al Systems [6.284317913684068]
複合アルシステム(CAIS)は、大規模な言語モデル(LLM)をレトリバー、エージェント、ツール、オーケストレータといった外部コンポーネントと統合する新興パラダイムである。
学術と産業の両方で採用が増加しているにもかかわらず、CAISの景観は断片化され、分析、分類、評価のための統一された枠組みが欠如している。
本調査は,次世代のシステムレベルの人工知能を理解し,開発し,推進するための総合的な基盤を研究者や実践者に提供することを目的とする。
論文 参考訳(メタデータ) (2025-06-05T02:34:43Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Designing Algorithms Empowered by Language Models: An Analytical Framework, Case Studies, and Insights [86.06371692309972]
本研究では,大規模言語モデル(LLM)に基づくアルゴリズムの設計と解析のための分析フレームワークを提案する。
提案する枠組みは頭痛を緩和する試みとして機能する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。