論文の概要: MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2602.19843v1
- Date: Mon, 23 Feb 2026 13:47:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.833275
- Title: MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems
- Title(参考訳): MAS-FIRE: LLMに基づくマルチエージェントシステムの故障注入と信頼性評価
- Authors: Jin Jia, Zhiling Deng, Zhuangbin Chen, Yingqi Wang, Zibin Zheng,
- Abstract要約: マルチエージェントシステムの障害注入と信頼性評価のための体系的フレームワークMAS-FIREを提案する。
エージェント内認知障害とエージェント間協調障害を対象とする15種類の障害分類を定義した。
MAS-FIREを3つの代表的なMASアーキテクチャに適用することにより、フォールトトレラントな動作の豊富なセットを明らかにする。
- 参考スコア(独自算出の注目度): 38.44649280816596
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As LLM-based Multi-Agent Systems (MAS) are increasingly deployed for complex tasks, ensuring their reliability has become a pressing challenge. Since MAS coordinate through unstructured natural language rather than rigid protocols, they are prone to semantic failures (e.g., hallucinations, misinterpreted instructions, and reasoning drift) that propagate silently without raising runtime exceptions. Prevailing evaluation approaches, which measure only end-to-end task success, offer limited insight into how these failures arise or how effectively agents recover from them. To bridge this gap, we propose MAS-FIRE, a systematic framework for fault injection and reliability evaluation of MAS. We define a taxonomy of 15 fault types covering intra-agent cognitive errors and inter-agent coordination failures, and inject them via three non-invasive mechanisms: prompt modification, response rewriting, and message routing manipulation. Applying MAS-FIRE to three representative MAS architectures, we uncover a rich set of fault-tolerant behaviors that we organize into four tiers: mechanism, rule, prompt, and reasoning. This tiered view enables fine-grained diagnosis of where and why systems succeed or fail. Our findings reveal that stronger foundation models do not uniformly improve robustness. We further show that architectural topology plays an equally decisive role, with iterative, closed-loop designs neutralizing over 40% of faults that cause catastrophic collapse in linear workflows. MAS-FIRE provides the process-level observability and actionable guidance needed to systematically improve multi-agent systems.
- Abstract(参考訳): LLMベースのMulti-Agent Systems (MAS) は複雑なタスクにますますデプロイされているため、信頼性の確保が課題となっている。
MASは厳密なプロトコルではなく、構造化されていない自然言語を通してコーディネートするため、実行時例外を発生させることなく静かに伝播する意味障害(例えば、幻覚、誤解釈命令、推論ドリフト)が生じる傾向がある。
エンドツーエンドのタスクの成功のみを測定する一般的な評価アプローチは、これらの失敗の発生方法や、エージェントがいかに効果的にタスクから回復するかについて、限られた洞察を提供する。
このギャップを埋めるため,MASの故障注入と信頼性評価のための体系的枠組みであるMAS-FIREを提案する。
我々は,エージェント内認知異常とエージェント間協調障害をカバーする15種類の障害の分類を定義し,迅速な修正,応答書き換え,メッセージルーティング操作という3つの非侵襲的なメカニズムを通じてそれらを注入する。
MAS-FIREを3つの代表的なMASアーキテクチャに適用することにより、私たちが構成するフォールトトレラントな動作の豊富なセットが、メカニズム、ルール、プロンプト、推論の4つの階層にまとめられます。
この階層ビューは、システムの成功と失敗の理由を詳細に診断することを可能にする。
以上の結果から,基礎モデルが強靭性を均一に改善しないことが明らかとなった。
さらに、アーキテクチャトポロジが同様に決定的な役割を果たすことを示し、線形ワークフローにおいて破滅的な崩壊を引き起こす障害の40%以上を、反復的でクローズドループの設計が中和することを示した。
MAS-FIREは、マルチエージェントシステムを体系的に改善するために必要なプロセスレベルの可観測性と実行可能なガイダンスを提供する。
関連論文リスト
- Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Testing and Enhancing Multi-Agent Systems for Robust Code Generation [21.38351747327572]
自動コード生成のための有望なパラダイムとしてマルチエージェントシステム(MAS)が登場した。
繁栄と採用にもかかわらず、その頑丈さはいまだに過小評価されている。
本稿ではファジィテストによるコード生成のためのMASのロバスト性を検証した最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-10-12T05:45:04Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Exploring Autonomous Agents: A Closer Look at Why They Fail When Completing Tasks [8.218266805768687]
我々は、自律エージェントを厳格に評価するために設計された34のプログラム可能なタスクのベンチマークを示す。
LLMバックボーンと組み合わせた3つの人気のあるオープンソースエージェントフレームワークを評価し,タスク完了率約50%を観察した。
我々は,障害の原因を3段階に分類し,計画上のエラー,タスク実行の問題,誤った応答生成を強調する。
論文 参考訳(メタデータ) (2025-08-18T17:55:22Z) - MARBLE: A Multi-Agent Rule-Based LLM Reasoning Engine for Accident Severity Prediction [1.3102025155414727]
交通安全システムにおいて,事故重大度予測が重要な役割を担っている。
既存の方法はしばしばモノリシックモデルやブラックボックスプロンプトに依存している。
本稿では,多エージェントルールに基づくLLMエンジンを提案し,その重大性予測タスクを,専門的推論エージェントのチーム間で分解する。
論文 参考訳(メタデータ) (2025-07-07T11:27:49Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。