論文の概要: Towards Engineering Multi-Agent LLMs: A Protocol-Driven Approach
- arxiv url: http://arxiv.org/abs/2510.12120v1
- Date: Tue, 14 Oct 2025 03:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.179461
- Title: Towards Engineering Multi-Agent LLMs: A Protocol-Driven Approach
- Title(参考訳): マルチエージェントLCMのエンジニアリングに向けて:プロトコル駆動アプローチ
- Authors: Zhenyu Mao, Jacky Keung, Fengji Zhang, Shuo Liu, Yifei Wang, Jialong Li,
- Abstract要約: 本稿では,マルチエージェントのための3つの中核SE設計原則をインスタンス化するプロトコル層方法論である,SEMAP(Software Engineering Multi-Agent Protocol)を紹介する。
コード開発では、機能レベルの開発が69.6%減少し、デプロイメントレベルの開発が56.7%に達する。
- 参考スコア(独自算出の注目度): 13.760107452858044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing demand for software development has driven interest in automating software engineering (SE) tasks using Large Language Models (LLMs). Recent efforts extend LLMs into multi-agent systems (MAS) that emulate collaborative development workflows, but these systems often fail due to three core deficiencies: under-specification, coordination misalignment, and inappropriate verification, arising from the absence of foundational SE structuring principles. This paper introduces Software Engineering Multi-Agent Protocol (SEMAP), a protocol-layer methodology that instantiates three core SE design principles for multi-agent LLMs: (1) explicit behavioral contract modeling, (2) structured messaging, and (3) lifecycle-guided execution with verification, and is implemented atop Google's Agent-to-Agent (A2A) infrastructure. Empirical evaluation using the Multi-Agent System Failure Taxonomy (MAST) framework demonstrates that SEMAP effectively reduces failures across different SE tasks. In code development, it achieves up to a 69.6% reduction in total failures for function-level development and 56.7% for deployment-level development. For vulnerability detection, SEMAP reduces failure counts by up to 47.4% on Python tasks and 28.2% on C/C++ tasks.
- Abstract(参考訳): ソフトウェア開発に対する需要が高まっているため、Large Language Models (LLM) を用いたソフトウェアエンジニアリング(SE)タスクの自動化への関心が高まっている。
近年の取り組みは、共同開発ワークフローをエミュレートするマルチエージェントシステム(MAS)にLLMを拡張しているが、これらのシステムは、基礎的なSE構造原則が欠如していることから生じる、過小評価、調整ミスアライメント、不適切な検証の3つの欠陥のために失敗することが多い。
本稿では,(1)明示的な動作契約モデリング,(2)構造化メッセージング,(3)検証によるライフサイクル誘導実行,(3)Googleのエージェント・ツー・エージェント(A2A)インフラストラクチャ上に実装された,3つの中核SE設計原則をインスタンス化するプロトコル層プロトコルであるSEMAPを紹介する。
MAST(Multi-Agent System Failure Taxonomy)フレームワークを用いた実証評価により、SEMAPがSEMAPのタスク間での障害を効果的に軽減することを示した。
コード開発では、機能レベルの開発では69.6%、デプロイメントレベルの開発では56.7%の削減を実現している。
脆弱性検出のために、SEMAPはPythonタスクで47.4%、C/C++タスクで28.2%の障害数を削減している。
関連論文リスト
- MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画に特化して設計された基盤モデルである textbfMagicAgent について述べる。
多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。
MagicAgent-32B と MagicAgent-30B-A3B は様々なオープンソースベンチマークにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2026-02-22T01:39:16Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Evaluating Software Process Models for Multi-Agent Class-Level Code Generation [5.545076518491288]
大規模言語モデル(LLM)は、ソフトウェア開発の自動化にますます使われています。
本研究では,クラスレベルのコード生成のためのプロセス構造とロール形状のマルチエージェント特殊化について検討する。
論文 参考訳(メタデータ) (2025-11-12T22:53:12Z) - AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems? [71.21547572568655]
AgenTracer-8Bは、マルチグラニュラ強化学習で訓練された軽量障害トレーサである。
Who&Whenベンチマークでは、AgenTracer-8BはGemini-2.5-ProやClaude-4-Sonnetのような巨大なLLMを最大18.18%上回っている。
AgenTracer-8BはMetaGPTやMAASのような市販のマルチエージェントシステムに4.8-14.2%の性能向上をもたらす。
論文 参考訳(メタデータ) (2025-09-03T13:42:14Z) - CodeAgents: A Token-Efficient Framework for Codified Multi-Agent Reasoning in LLMs [16.234259194402163]
マルチエージェント推論を符号化し、マルチエージェントシステムにおける構造化されたトークン効率の計画を可能にするプロンプトフレームワークであるCodeAgentsを紹介する。
その結果, 計画性能は一貫した改善がみられ, 基本となる自然言語よりも3~36ポイントの絶対的な向上が見られた。
論文 参考訳(メタデータ) (2025-07-04T02:20:19Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - OmniNova:A General Multimodal Agent Framework [0.5439020425819]
特殊なツールを備えた大規模言語モデル(LLM)は、インテリジェントな自動化システムに新たな機会をもたらす。
OmniNovaはモジュール型のマルチエージェント自動化フレームワークで、言語モデルとWeb検索、クローリング、コード実行機能といった特殊なツールを組み合わせる。
論文 参考訳(メタデータ) (2025-03-25T19:21:01Z) - Planning with Multi-Constraints via Collaborative Language Agents [13.550774629515843]
本稿では,協調型マルチエージェントシステムのためのゼロショット手法であるPMC(Planning with Multi-Constraints)を紹介する。
PMCは、制約で複雑なタスク計画を簡単にし、従属タスクの階層に分解する。
PMCはTravelPlannerで平均42.68%の成功率を記録し、GPT-4 (2.92%) をはるかに上回り、API-BankでReActを13.64%上回った。
論文 参考訳(メタデータ) (2024-05-26T10:33:17Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。