論文の概要: POIROT: Interrogating Agents for Failure Detection in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2606.02282v1
- Date: Mon, 01 Jun 2026 14:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.194507
- Title: POIROT: Interrogating Agents for Failure Detection in Multi-Agent Systems
- Title(参考訳): POIROT:マルチエージェントシステムにおける故障検出のためのインターロゲーティングエージェント
- Authors: Iñaki Dellibarda Varela, R. Sendra-Arranz, Pablo Romero-Sorozabal, J. M. Valverde-García, Annemarie F. Laudanski, Álvaro Gutiérrez, Eduardo Rocon, Manuel Cebrian,
- Abstract要約: システム独自のエージェントを診断層として再利用するプロトコルであるPOIROTを提案する。
評価された設定全体で、POIROTは単一LLMベースライン評価器より優れている。
我々は,安全クリティカルなマルチエージェントシステムにおけるフォールト属性のベンチマークであるBLAMEとともに,オープンソースのライブラリとしてPOIROTをリリースした。
- 参考スコア(独自算出の注目度): 0.07783271875179179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Orchestrating Large Language Models into Multi-Agent Systems (LLM-MAS) has unlocked remarkable reasoning capabilities, yet emergent failures and hallucinations that resist characterisation block their deployment in safety-critical domains -- a gap made legally untenable by emerging AI regulation. Existing evaluation paradigms share a common flaw: centralised judgment creates single points of failure and demands domain-specific expertise. Here we present POIROT, a protocol that repurposes a system's own agents as its diagnostic layer, leveraging the epistemic diversity already present in the architecture. Across evaluated settings, POIROT outperforms single-LLM evaluator baselines, with gains that scale with problem complexity (OR = 1.60, $p = 0.008$), agent count, and fault dimensionality, persisting under compound fault conditions. These results demonstrate that safety oversight need not be externalised: the agents executing a role carry sufficient collective intelligence to audit it. We release POIROT as an open-source library alongside BLAME, a benchmark for fault attribution in safety-critical multi-agent systems.
- Abstract(参考訳): 大規模言語モデルをマルチエージェントシステム(LLM-MAS)にオーケストレーションすることで、驚くべき推論能力が解放された。しかしながら、文字化に抵抗する突発的な失敗や幻覚は、安全クリティカルなドメインへのデプロイメントを妨げている。
集中型判断は単一障害点を生成し、ドメイン固有の専門知識を要求する。
本稿では,システム自身のエージェントを診断層として再利用するプロトコルであるPOIROTについて述べる。
評価された設定全体において、POIROTは単一LLM評価器のベースラインを上回り、複雑な障害条件下で持続する問題複雑性(OR = 1.60, $p = 0.008$)、エージェントカウント、障害次元でスケールするゲインを持つ。
これらの結果は、ロールを実行するエージェントがそれを評価するのに十分な総合的な知性を持っていることを証明している。
我々は,安全クリティカルなマルチエージェントシステムにおけるフォールト属性のベンチマークであるBLAMEとともに,オープンソースのライブラリとしてPOIROTをリリースした。
関連論文リスト
- Lessons from Penetration Tests on Large-Scale Agent Systems [7.61892296424389]
実行可能AIエージェントは、コンピューティングスタックの複数のレイヤと広範囲に相互作用する。
プロプライエタリなエージェントシステムが同様のセキュリティの弱点を示すかどうかは不明だ。
2025年に実施したプロプライエタリエージェント製品に対する2回の浸透試験の結果を報告する。
論文 参考訳(メタデータ) (2026-05-26T13:58:27Z) - VerifyMAS: Hypothesis Verification for Failure Attribution in LLM Multi-Agent Systems [79.51005192758262]
大規模言語モデル駆動型マルチエージェントシステムは複雑なタスクで優れている。
しかし、信頼性の低いエージェントは、システムレベルの信頼性にとって重要なボトルネックである。
本稿では,エージェント故障の帰属に関する仮説検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-17T14:09:35Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs [32.38053469964495]
システム間インタラクションを含む拡張されたアクションスペースは、深刻なセキュリティ上の問題を引き起こす。
悪意のある命令をサードパーティのコンテンツ内に隠蔽するIPIは、データ流出などの不正なアクションをトリガーする。
9個のLPMバックボーンにまたがる4つの高度なIPI攻撃ベクトルに対する6つの防御戦略を評価した。
論文 参考訳(メタデータ) (2026-04-04T21:27:04Z) - MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems [38.44649280816596]
マルチエージェントシステムの障害注入と信頼性評価のための体系的フレームワークMAS-FIREを提案する。
エージェント内認知障害とエージェント間協調障害を対象とする15種類の障害分類を定義した。
MAS-FIREを3つの代表的なMASアーキテクチャに適用することにより、フォールトトレラントな動作の豊富なセットを明らかにする。
論文 参考訳(メタデータ) (2026-02-23T13:47:43Z) - Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection [76.91230292971115]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
論文 参考訳(メタデータ) (2025-12-21T13:46:36Z) - Exposing Weak Links in Multi-Agent Systems under Adversarial Prompting [5.544819942438653]
本稿では,マルチエージェントシステムのセキュリティ評価を行うフレームワークであるSafeAgentsを提案する。
広く採用されている5つのマルチエージェントアーキテクチャについて検討する。
この結果から,一般的なデザインパターンには重大な脆弱性があることが判明した。
論文 参考訳(メタデータ) (2025-11-14T04:22:49Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Vulnerable Agent Identification in Large-Scale Multi-Agent Reinforcement Learning [49.31650627835956]
システムがスケールアップすると、部分的なエージェントの障害は避けられないものとなり、全体的なパフォーマンスが著しく低下するエージェントのサブセットを特定することが重要になる。
本稿では,大規模マルチエージェント強化学習(MARL)における脆弱性エージェント識別(VAI)問題について検討する。
実験により, 大規模MARLおよびルールベースシステムにおいて, より脆弱なエージェントを効果的に同定し, システムを悪用し, それぞれのエージェントの脆弱性を明らかにする値関数を学習した。
論文 参考訳(メタデータ) (2025-09-18T16:03:50Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。