論文の概要: Is Monitoring Enough? Strategic Agent Selection For Stealthy Attack in Multi-Agent Discussions
- arxiv url: http://arxiv.org/abs/2603.21194v1
- Date: Sun, 22 Mar 2026 12:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.287965
- Title: Is Monitoring Enough? Strategic Agent Selection For Stealthy Attack in Multi-Agent Discussions
- Title(参考訳): 監視は十分か? マルチエージェント討論におけるステルス攻撃のための戦略エージェントの選択
- Authors: Qiuchi Xiang, Haoxuan Qu, Hossein Rahmani, Jun Liu,
- Abstract要約: マルチエージェントの議論は広く採用され、脆弱性を暴露する攻撃を開発する取り組みが活発化している。
本研究は,実践的だがほとんど探索されていない攻撃シナリオ,議論監視シナリオについて考察する。
既存の攻撃は、議論の監視なしに効果的であることを示すが、検出可能なパターンを示し、そのような監視制約の下では、ほとんど失敗する。
- 参考スコア(独自算出の注目度): 22.158075097644968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent discussions have been widely adopted, motivating growing efforts to develop attacks that expose their vulnerabilities. In this work, we study a practical yet largely unexplored attack scenario, the discussion-monitored scenario, where anomaly detectors continuously monitor inter-agent communications and block detected adversarial messages. Although existing attacks are effective without discussion monitoring, we show that they exhibit detectable patterns and largely fail under such monitoring constraints. But does this imply that monitoring alone is sufficient to secure multi-agent discussions? To answer this question, we develop a novel attack method explicitly tailored to the discussion-monitored scenario. Extensive experiments demonstrate that effective attacks remain possible even under continuous monitoring, indicating that monitoring alone does not eliminate adversarial risks.
- Abstract(参考訳): マルチエージェントの議論は広く採用され、脆弱性を暴露する攻撃を開発する取り組みが活発化している。
本研究では,異常検知器がエージェント間通信を継続的に監視し,検出された敵のメッセージをブロックする,実用的な,ほとんど探索されていない攻撃シナリオである議論監視シナリオについて検討する。
既存の攻撃は、議論の監視なしに効果的であるが、検出可能なパターンを示し、そのような監視制約の下では、ほとんど失敗することを示す。
しかし、これは監視だけでマルチエージェントの議論を確保するのに十分であることを意味するのだろうか?
そこで本研究では,議論監視のシナリオに合わせて,新たな攻撃方法を提案する。
大規模な実験では、継続的な監視の下でも効果的な攻撃が可能であり、監視だけでは敵のリスクを排除できないことを示している。
関連論文リスト
- OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks [12.356708678431183]
現在の防御は、エージェントのChain-of-Thought(CoT)とツール使用アクションを共同で評価し、ユーザの意図との整合性を保証する監視プロトコルに依存している。
これらの監視ベースの防御は、新しいエージェント・アズ・ア・プロキシ・ア・プロキシ・アタックによってバイパス可能であることを実証する。
以上の結果から,現在の監視型エージェント防御は,モデルスケールによらず根本的に脆弱であることが示唆された。
論文 参考訳(メタデータ) (2026-02-04T21:38:38Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [25.6233463223145]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
高いステルス性を維持しながらタスク完了を微妙に妨害する4つの代表的な攻撃パラダイムを設計する。
これらの脅威に対処するために,心理学に着想を得た検出フレームワークであるAgentXposedを提案する。
論文 参考訳(メタデータ) (2025-07-07T07:34:34Z) - Demonstrations of Integrity Attacks in Multi-Agent Systems [7.640342064257848]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、システムの中核機能を破壊しずに自己利益を提供する悪意のあるエージェントに対して脆弱である可能性がある。
この研究は、悪意のあるエージェントが微妙なプロンプト操作を使用してバイアスMAS操作を行ない、様々な利益を得る、完全性攻撃を探索する。
論文 参考訳(メタデータ) (2025-06-05T02:44:49Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。