論文の概要: A Comprehensive Empirical Evaluation of Agent Frameworks on Code-centric Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2511.00872v1
- Date: Sun, 02 Nov 2025 09:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.973292
- Title: A Comprehensive Empirical Evaluation of Agent Frameworks on Code-centric Software Engineering Tasks
- Title(参考訳): コード中心のソフトウェアエンジニアリングタスクにおけるエージェントフレームワークの総合的実証評価
- Authors: Zhuowen Yin, Cuifeng Gao, Chunsong Fan, Wenzhang Yang, Yinxing Xue, Lijun Zhang,
- Abstract要約: 代表的な3つのコード中心タスクにまたがる7つの汎用エージェントフレームワークを評価する。
この結果から,評価フレームワーク間の機能パターンとトレードオフが明らかとなった。
オーバヘッドに関しては、ソフトウェア開発が最も金銭コストが高いのに対して、GPTswarmは依然として最もコスト効率が高い。
- 参考スコア(独自算出の注目度): 14.762911285395047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike traditional automation tools or static LLM-based systems, agents combine decision-making and tool utilization to accomplish complex tasks, showing great potential in software engineering. However, existing studies largely focus on specific tasks or isolated aspects, providing an incomplete picture of agents' practical capabilities. To address this, we conduct a comprehensive empirical study evaluating seven general-purpose agent frameworks across three representative code-centric tasks: software development, vulnerability detection, and program repair. Each task is assessed using standard, widely adopted benchmarks to ensure objective and comparable evaluation. Agent performance is systematically analyzed from three complementary perspectives: effectiveness (task success), efficiency (execution process), and overhead (token consumption). Our findings reveal distinct capability patterns and trade-offs among the evaluated frameworks. In terms of effectiveness, agents achieve moderate overall performance. Regarding efficiency, AgentOrchestra tends to exhibit the longest trajectories and the most correction attempts due to coordination overhead, whereas OpenHands demonstrate stronger reflective reasoning abilities. For overhead, software development incurs the highest monetary cost, while GPTswarm remains the most cost-efficient. Furthermore, we conduct an in-depth cross-analysis of the relationship between effectiveness and efficiency, exploring the underlying reasons behind their interplay. These findings guide both practical adoption and future research toward more efficient software engineering agents.
- Abstract(参考訳): 従来の自動化ツールや静的LLMベースのシステムとは異なり、エージェントは意思決定とツール利用を組み合わせて複雑なタスクをこなす。
しかし、既存の研究は主に特定のタスクや孤立した側面に焦点を合わせており、エージェントの実用能力が不完全であることを示している。
そこで本研究では,ソフトウェア開発,脆弱性検出,プログラム修復という,コード中心の3つのタスクにまたがる汎用エージェントフレームワークを総合的に評価した。
各タスクは、客観的および同等の評価を保証するために、標準で広く採用されているベンチマークを使用して評価される。
エージェントのパフォーマンスは、効果(タスクの成功)、効率(実行プロセス)、オーバーヘッド(トークン消費)の3つの相補的な視点から体系的に分析される。
この結果から,評価フレームワーク間の機能パターンとトレードオフが明らかとなった。
効果の面では、エージェントは適度な全体的なパフォーマンスを達成する。
効率性に関して、AgentOrchestraは、コーディネートオーバーヘッドによる最も長い軌道と最も補正の試みを示す傾向があり、一方OpenHandsはより強い反射的推論能力を示す。
オーバヘッドに関しては、ソフトウェア開発が最も金銭コストが高いのに対して、GPTswarmは依然として最もコスト効率が高い。
さらに,実効性と効率の関係を詳細に分析し,それらの相互作用の背景にある理由を探る。
これらの知見は、より効率的なソフトウェアエンジニアリングエージェントへの実践的採用と将来の研究の両方を導く。
関連論文リスト
- WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking [60.35109192765302]
情報検索は、自律的な推論と意思決定を可能にする中核的な能力である。
我々は、高カバレッジなISタスクを構築し、効率的なソリューショントラジェクトリを生成するためのフレームワークであるWebLeaperを提案する。
本手法は,強いベースラインに対する有効性と効率性の向上を継続的に達成する。
論文 参考訳(メタデータ) (2025-10-28T17:51:42Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - Benchmarking LLM-based Agents for Single-cell Omics Analysis [6.915378212190715]
AIエージェントは、適応的な計画、実行可能なコード生成、トレース可能な決定、リアルタイム知識融合を可能にする、パラダイムシフトを提供する。
本稿では,シングルセルオミクス解析におけるエージェント能力の厳格な評価を行うためのベンチマーク評価システムを提案する。
論文 参考訳(メタデータ) (2025-08-16T04:26:18Z) - Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study [15.97770416681533]
ソフトウェアエンジニアリングエージェント(SWEエージェント)は、ユーザの入力を解釈し、環境フィードバックに応答することで、自律的に動作する。
本稿では,SWEエージェントの動作を,実行トレースのレンズを通してシステマティックに解析する。
論文 参考訳(メタデータ) (2025-06-10T00:41:54Z) - Unifying Language Agent Algorithms with Graph-based Orchestration Engine for Reproducible Agent Research [32.92036657863354]
大規模言語モデル(LLM)を利用した言語エージェントは、複雑なタスクの理解、推論、実行において顕著な能力を示した。
しかし、堅牢なエージェントの開発には、相当なエンジニアリングオーバーヘッド、標準化されたコンポーネントの欠如、公正な比較のための十分な評価フレームワークなど、大きな課題がある。
我々はこれらの課題に対処するフレキシブルで抽象的なフレームワークであるAGORA(Agent Graph-based Orchestration for Reasoning and Assessment)を紹介した。
論文 参考訳(メタデータ) (2025-05-30T08:46:23Z) - Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。
経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。
推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文 参考訳(メタデータ) (2025-05-29T07:24:37Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models [95.96734086126469]
大規模言語モデル(LLM)は、ユーザが仕事を達成するのを助けるアシスタントとして機能し、高度なアプリケーションの開発をサポートする。
LLMの幅広い応用にとって、推論効率は重要な問題であり、既存の研究で広く研究されている。
各種コードライブラリの推論性能の粗大な解析を行う。
論文 参考訳(メタデータ) (2024-04-17T15:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。