論文の概要: Catching the Infection Before It Spreads: Foresight-Guided Defense in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2605.01758v2
- Date: Fri, 08 May 2026 08:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.634683
- Title: Catching the Infection Before It Spreads: Foresight-Guided Defense in Multi-Agent Systems
- Title(参考訳): 感染拡大前の感染予防 : マルチエージェントシステムにおける予防的予防
- Authors: Yue Ma, Ziyuan Yang, Yi Zhang,
- Abstract要約: マルチエージェントシステム(MAS)は、特殊なエージェントによる協調的な複雑な問題解決を可能にする。
MASは感染性ジェイルブレイクに対して脆弱で、単一のエージェントを妥協することで他のエージェントに拡散し、広範な妥協につながる。
既存の防御策では、より伝染性の治療因子を訓練し、ウイルスの敵対的な例から治療薬を回収するバイアスを課している。
本稿では,行動の進化をトラッキングし,感染を除去するために,各エージェントが今後の相互作用を理由としてFLP(Foresight-Guided Local Purification)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.60940551895875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal model-based Multi-Agent Systems (MASs) enable collaborative complex problem solving through specialized agents. However, MASs are vulnerable to infectious jailbreak, where compromising a single agent can spread to others, leading to widespread compromise. Existing defenses counter this by training a more contagious cure factor, biasing agents to retrieve it over virus adversarial examples (VirAEs). However, this homogenizes agent responses, providing only superficial suppression rather than true recovery. We revisit these defenses, which operate globally via a shared cure factor, while infectious jailbreak arise from localized interaction behaviors. This mismatch limits their effectiveness. To address this, we propose a training-free Foresight-Guided Local Purification (FLP) framework, where each agent reasons over future interactions to track behavioral evolution and eliminate infections. Specifically, each agent simulates future behavioral trajectories over subsequent chat rounds. To reflect diversity in MASs, we introduce a multi-persona simulation strategy for robust prediction across interaction contexts. We then use response diversity as a diagnostic signal to detect infection by analyzing inconsistencies across persona-based predictions at both retrieval-result and semantic levels. For infected agents, we apply localized purification: recent infections are mitigated via immediate album rollback, while long-term infections are handled using Recursive Binary Diagnosis (RBD), which recursively partitions the image album and applies the same diagnosis strategy to localize and eliminate VirAEs. Experiments show that FLP reduces the maximum cumulative infection rate from over 95% to below 5.47%. Moreover, retrieval and semantic metrics closely match benign baselines, indicating effective preservation of interaction diversity.
- Abstract(参考訳): 大規模マルチモーダルモデルベースマルチエージェントシステム(MAS)は、特殊なエージェントによる協調的な複雑な問題解決を可能にする。
しかし、MASは感染性ジェイルブレイクに弱いため、単一のエージェントの妥協が他のエージェントに広まる可能性があるため、広範な妥協がもたらされる。
既存の防御は、より伝染的な治療因子を訓練し、ウイルス敵の例(VirAEs)で治療薬を回収するバイアスを課すことによってこれに対抗する。
しかし、これはエージェント応答を均質化し、真の回復よりも表面的な抑制のみを提供する。
感染性ジェイルブレイクは局所的な相互作用行動から生じるが、我々はこれらの防御策を再考する。
このミスマッチは効果を制限します。
そこで本研究では,今後の動向を把握し,感染を除去するために,各エージェントが今後のインタラクションを理由として,FLP(Foresight-Guided Local Purification)フレームワークを提案する。
具体的には、各エージェントがその後のチャットラウンドに対する将来の行動軌跡をシミュレートする。
そこで本稿では,MASの多様性を反映したマルチペルソナシミュレーション手法を提案する。
次に、応答の多様性を診断信号として使用し、検索と意味の両方のレベルでペルソナに基づく予測の不整合を分析して、感染を検出する。
近年の感染は即時アルバムロールバックにより緩和され, 長期感染は再帰的にイメージアルバムを分割し, VirAEを局所化し除去するために同じ診断戦略を適用するRBD(Recursive Binary Diagnosis)を用いて処理される。
FLPは最大累積感染率を95%以上から5.47%以下に下げることを示した。
さらに、検索と意味尺度は良性基準線と密接に一致し、相互作用の多様性を効果的に保存することを示す。
関連論文リスト
- INFA-Guard: Mitigating Malicious Propagation via Infection-Aware Safeguarding in LLM-Based Multi-Agent Systems [70.37731999972785]
本稿では,感染防止対策の枠組みであるINFA-Guardを提案する。
修復中、INFA-Guardは攻撃者を置き換え、感染した者を修復し、トポロジカルな整合性を維持しながら悪意のある伝播を避ける。
論文 参考訳(メタデータ) (2026-01-21T05:27:08Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Cowpox: Towards the Immunity of VLM-based Multi-Agent Systems [25.286964510949183]
核となるセキュリティ特性は堅牢性であり、システムは敵の攻撃下でその整合性を維持するべきである、と述べている。
我々は,マルチエージェントシステムのロバスト性を高めるための新しい防衛手法,Cowpoxを提案する。
論文 参考訳(メタデータ) (2025-08-12T07:48:51Z) - HiddenBench: Assessing Collective Reasoning in Multi-Agent LLMs via Hidden Profile Tasks [12.203366267017737]
マルチエージェント LLM における集合的推論を評価するための最初のベンチマークである HiddenBench を紹介する。
ベンチマークを基礎として,このパラダイムをカスタムタスクで形式化し,GPT-4.1グループが分散知識の統合に失敗したことを示す。
次に、カスタムデザイン、先行研究、自動生成から引き出された65のタスクにまたがる完全なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-05-15T19:22:54Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Preventing Rogue Agents Improves Multi-Agent Collaboration [21.955058255432974]
本稿では,アクション予測中にエージェントを監視し,将来エラーが発生する可能性がある場合に介入することを提案する。
WhoDunitEnv、コード生成タスク、そしてリソース持続可能性のためのGovSim環境の実験は、我々のアプローチがパフォーマンスを大幅に向上させることを示している。
論文 参考訳(メタデータ) (2025-02-09T18:35:08Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。