論文の概要: Testing and Enhancing Multi-Agent Systems for Robust Code Generation
- arxiv url: http://arxiv.org/abs/2510.10460v1
- Date: Sun, 12 Oct 2025 05:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.950763
- Title: Testing and Enhancing Multi-Agent Systems for Robust Code Generation
- Title(参考訳): ロバストコード生成のためのマルチエージェントシステムのテストと強化
- Authors: Zongyi Lyu, Songqiang Chen, Zhenlan Ji, Liwen Wang, Shuai Wang, Daoyuan Wu, Wenxuan Wang, Shing-Chi Cheung,
- Abstract要約: 自動コード生成のための有望なパラダイムとしてマルチエージェントシステム(MAS)が登場した。
繁栄と採用にもかかわらず、その頑丈さはいまだに過小評価されている。
本稿ではファジィテストによるコード生成のためのMASのロバスト性を検証した最初の総合的研究について述べる。
- 参考スコア(独自算出の注目度): 21.38351747327572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent systems (MASs) have emerged as a promising paradigm for automated code generation, demonstrating impressive performance on established benchmarks by decomposing complex coding tasks across specialized agents with different roles. Despite their prosperous development and adoption, their robustness remains pressingly under-explored, raising critical concerns for real-world deployment. This paper presents the first comprehensive study examining the robustness of MASs for code generation through a fuzzing-based testing approach. By designing a fuzzing pipeline incorporating semantic-preserving mutation operators and a novel fitness function, we assess mainstream MASs across multiple datasets and LLMs. Our findings reveal substantial robustness flaws of various popular MASs: they fail to solve 7.9%-83.3% of problems they initially resolved successfully after applying the semantic-preserving mutations. Through comprehensive failure analysis, we identify a common yet largely overlooked cause of the robustness issue: miscommunications between planning and coding agents, where plans lack sufficient detail and coding agents misinterpret intricate logic, aligning with the challenges inherent in a multi-stage information transformation process. Accordingly, we also propose a repairing method that encompasses multi-prompt generation and introduces a new monitor agent to address this issue. Evaluation shows that our repairing method effectively enhances the robustness of MASs by solving 40.0%-88.9% of identified failures. Our work uncovers critical robustness flaws in MASs and provides effective mitigation strategies, contributing essential insights for developing more reliable MASs for code generation.
- Abstract(参考訳): マルチエージェントシステム(MAS)は、自動化されたコード生成のための有望なパラダイムとして登場し、異なる役割を持つ特殊なエージェント間で複雑なコーディングタスクを分解することで、確立されたベンチマークにおける印象的なパフォーマンスを誇示している。
開発と採用が順調に進んでいるにもかかわらず、その堅牢性はいまだに過小評価され続けており、現実のデプロイメントに対する重要な懸念が持ち上がっている。
本稿ではファジィテストによるコード生成のためのMASのロバスト性を検証した最初の総合的研究について述べる。
意味保存型突然変異演算子と新しい適合関数を組み込んだファジィパイプラインを設計することにより、複数のデータセットとLLMにわたるメインストリームMASを評価する。
本研究は, 種々のMASに有意な堅牢性欠陥を呈し, 意味保存突然変異を適用した後に最初に解決した問題の7.9%-83.3%を解決できなかった。
計画とコーディングエージェントの間には十分な詳細が不足しており、コーディングエージェントは複雑な論理を誤って解釈し、多段階の情報変換プロセスに固有の課題と整合する。
そこで本研究では,マルチプロンプト生成を含む修復手法を提案し,この問題に対処する新しいモニタエージェントを提案する。
本手法は, 40.0%-88.9%の故障を解消することによりMASの堅牢性を効果的に向上することを示す。
私たちの研究は、MASの重大な堅牢性欠陥を明らかにし、効果的な緩和戦略を提供し、コード生成のためのより信頼性の高いMASの開発に不可欠な洞察を与えます。
関連論文リスト
- MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems [38.44649280816596]
マルチエージェントシステムの障害注入と信頼性評価のための体系的フレームワークMAS-FIREを提案する。
エージェント内認知障害とエージェント間協調障害を対象とする15種類の障害分類を定義した。
MAS-FIREを3つの代表的なMASアーキテクチャに適用することにより、フォールトトレラントな動作の豊富なセットを明らかにする。
論文 参考訳(メタデータ) (2026-02-23T13:47:43Z) - Multi-Agent End-to-End Vulnerability Management for Mitigating Recurring Vulnerabilities [9.2997229083124]
従来の静的解析手法はコンテキスト依存を正確に捉えるのに苦労する。
コードの再利用と共有ロジックにより、繰り返し脆弱性が発生する。
エンド・ツー・エンドの繰り返し脆弱性管理のためのマルチエージェントフレームワークであるMAVMを提案する。
論文 参考訳(メタデータ) (2026-01-25T09:35:05Z) - Agentic Confidence Calibration [67.50096917021521]
Holistic Trajectory (HTC)はAIエージェントの新しい診断フレームワークである。
HTCはキャリブレーションと差別の両方において、強力なベースラインを一貫して超えている。
HTCは、障害の背後にあるシグナルを明らかにすることによって、解釈可能性を提供する。
論文 参考訳(メタデータ) (2026-01-22T09:08:25Z) - Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection [76.91230292971115]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
論文 参考訳(メタデータ) (2025-12-21T13:46:36Z) - Rethinking the Reliability of Multi-agent System: A Perspective from Byzantine Fault Tolerance [16.514747521376915]
大規模言語モデル (LLM) はマルチエージェントシステム (MAS) のメインブランチとして LLM ベースのエージェントを確立している。
本研究では, ビザンチン系耐故障性の観点から, LLM系エージェントの信頼性を検証し, 定量化する。
我々は、信頼度プローブに基づく重み付きビザンチン耐故障コンセンサス機構であるCP-WBFTを設計し、異なる位相でMASの安定性を向上させる。
論文 参考訳(メタデータ) (2025-11-13T15:20:12Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Who is Introducing the Failure? Automatically Attributing Failures of Multi-Agent Systems via Spectrum Analysis [10.235089248238108]
我々は、MASに対する最初のスペクトルベースの障害帰属手法であるFAMASを提案する。
FAMASの中核となる考え方は、繰り返しMASの実行のバリエーションから、各エージェントアクションが障害の原因となる可能性を見積もることである。
特に、エージェント行動群とアクション行動群という2つの重要な因子群を統合するMASに合わせた新しい不審性公式を提案する。
論文 参考訳(メタデータ) (2025-09-17T07:50:44Z) - MASteer: Multi-Agent Adaptive Steer Strategy for End-to-End LLM Trustworthiness Repair [24.187162194500317]
MASteerは、大規模言語モデル(LLM)における信頼性修復のためのエンドツーエンドフレームワークである。
開発者のニーズに合わせて多種多様な高品質なステアサンプルを生成するマルチエージェントシステムであるAutoTesterと、推論中のコンテキスト認識戦略の自動選択のためのアンカーベクタを備えたアダプティブステアリング戦略を構築するAutoRepairerだ。
実験の結果、MASteerはベースラインを一貫して上回り、LLaMA-3.1-8B-Chatで15.36%、Qwen-3-8B-Chatで4.21%改善し、一般的なモデル能力を維持した。
論文 参考訳(メタデータ) (2025-08-09T12:20:00Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z) - LLMs as Continuous Learners: Improving the Reproduction of Defective Code in Software Issues [62.12404317786005]
EvoCoderは、イシューコード再現のための継続的学習フレームワークである。
その結果,既存のSOTA法よりも20%改善した。
論文 参考訳(メタデータ) (2024-11-21T08:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。