論文の概要: Testing and Enhancing Multi-Agent Systems for Robust Code Generation
- arxiv url: http://arxiv.org/abs/2510.10460v1
- Date: Sun, 12 Oct 2025 05:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.950763
- Title: Testing and Enhancing Multi-Agent Systems for Robust Code Generation
- Title(参考訳): ロバストコード生成のためのマルチエージェントシステムのテストと強化
- Authors: Zongyi Lyu, Songqiang Chen, Zhenlan Ji, Liwen Wang, Shuai Wang, Daoyuan Wu, Wenxuan Wang, Shing-Chi Cheung,
- Abstract要約: 自動コード生成のための有望なパラダイムとしてマルチエージェントシステム(MAS)が登場した。
繁栄と採用にもかかわらず、その頑丈さはいまだに過小評価されている。
本稿ではファジィテストによるコード生成のためのMASのロバスト性を検証した最初の総合的研究について述べる。
- 参考スコア(独自算出の注目度): 21.38351747327572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent systems (MASs) have emerged as a promising paradigm for automated code generation, demonstrating impressive performance on established benchmarks by decomposing complex coding tasks across specialized agents with different roles. Despite their prosperous development and adoption, their robustness remains pressingly under-explored, raising critical concerns for real-world deployment. This paper presents the first comprehensive study examining the robustness of MASs for code generation through a fuzzing-based testing approach. By designing a fuzzing pipeline incorporating semantic-preserving mutation operators and a novel fitness function, we assess mainstream MASs across multiple datasets and LLMs. Our findings reveal substantial robustness flaws of various popular MASs: they fail to solve 7.9%-83.3% of problems they initially resolved successfully after applying the semantic-preserving mutations. Through comprehensive failure analysis, we identify a common yet largely overlooked cause of the robustness issue: miscommunications between planning and coding agents, where plans lack sufficient detail and coding agents misinterpret intricate logic, aligning with the challenges inherent in a multi-stage information transformation process. Accordingly, we also propose a repairing method that encompasses multi-prompt generation and introduces a new monitor agent to address this issue. Evaluation shows that our repairing method effectively enhances the robustness of MASs by solving 40.0%-88.9% of identified failures. Our work uncovers critical robustness flaws in MASs and provides effective mitigation strategies, contributing essential insights for developing more reliable MASs for code generation.
- Abstract(参考訳): マルチエージェントシステム(MAS)は、自動化されたコード生成のための有望なパラダイムとして登場し、異なる役割を持つ特殊なエージェント間で複雑なコーディングタスクを分解することで、確立されたベンチマークにおける印象的なパフォーマンスを誇示している。
開発と採用が順調に進んでいるにもかかわらず、その堅牢性はいまだに過小評価され続けており、現実のデプロイメントに対する重要な懸念が持ち上がっている。
本稿ではファジィテストによるコード生成のためのMASのロバスト性を検証した最初の総合的研究について述べる。
意味保存型突然変異演算子と新しい適合関数を組み込んだファジィパイプラインを設計することにより、複数のデータセットとLLMにわたるメインストリームMASを評価する。
本研究は, 種々のMASに有意な堅牢性欠陥を呈し, 意味保存突然変異を適用した後に最初に解決した問題の7.9%-83.3%を解決できなかった。
計画とコーディングエージェントの間には十分な詳細が不足しており、コーディングエージェントは複雑な論理を誤って解釈し、多段階の情報変換プロセスに固有の課題と整合する。
そこで本研究では,マルチプロンプト生成を含む修復手法を提案し,この問題に対処する新しいモニタエージェントを提案する。
本手法は, 40.0%-88.9%の故障を解消することによりMASの堅牢性を効果的に向上することを示す。
私たちの研究は、MASの重大な堅牢性欠陥を明らかにし、効果的な緩和戦略を提供し、コード生成のためのより信頼性の高いMASの開発に不可欠な洞察を与えます。
関連論文リスト
- Who is Introducing the Failure? Automatically Attributing Failures of Multi-Agent Systems via Spectrum Analysis [10.235089248238108]
我々は、MASに対する最初のスペクトルベースの障害帰属手法であるFAMASを提案する。
FAMASの中核となる考え方は、繰り返しMASの実行のバリエーションから、各エージェントアクションが障害の原因となる可能性を見積もることである。
特に、エージェント行動群とアクション行動群という2つの重要な因子群を統合するMASに合わせた新しい不審性公式を提案する。
論文 参考訳(メタデータ) (2025-09-17T07:50:44Z) - MASteer: Multi-Agent Adaptive Steer Strategy for End-to-End LLM Trustworthiness Repair [24.187162194500317]
MASteerは、大規模言語モデル(LLM)における信頼性修復のためのエンドツーエンドフレームワークである。
開発者のニーズに合わせて多種多様な高品質なステアサンプルを生成するマルチエージェントシステムであるAutoTesterと、推論中のコンテキスト認識戦略の自動選択のためのアンカーベクタを備えたアダプティブステアリング戦略を構築するAutoRepairerだ。
実験の結果、MASteerはベースラインを一貫して上回り、LLaMA-3.1-8B-Chatで15.36%、Qwen-3-8B-Chatで4.21%改善し、一般的なモデル能力を維持した。
論文 参考訳(メタデータ) (2025-08-09T12:20:00Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z) - LLMs as Continuous Learners: Improving the Reproduction of Defective Code in Software Issues [62.12404317786005]
EvoCoderは、イシューコード再現のための継続的学習フレームワークである。
その結果,既存のSOTA法よりも20%改善した。
論文 参考訳(メタデータ) (2024-11-21T08:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。