論文の概要: Out of Sight, Not Out of Mind: Unveiling Latent Attack in Latent-based Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2605.28214v1
- Date: Wed, 27 May 2026 09:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.933733
- Title: Out of Sight, Not Out of Mind: Unveiling Latent Attack in Latent-based Multi-Agent Systems
- Title(参考訳): Out of Sight, not out of Mind: Unveiling Latent Attack in Latent-based Multi-Agent Systems
- Authors: Chenxi Wang, Ruiyang Huang, Jiayan Sun, Lei Wei, Yifan Wu,
- Abstract要約: 本稿では、敵のテキストを再利用することなく、潜伏介入による攻撃誘発効果を再活性化する潜伏攻撃フレームワークを提案する。
実験の結果、結果の遅延のみの攻撃はクリーンな実行でタスクパフォーマンスを著しく低下させる可能性がある。
- 参考スコア(独自算出の注目度): 6.750613609199811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent-based multi-agent systems replace parts of explicit inter-agent communication with hidden representations, offering a new direction for efficient and flexible agent collaboration. However, moving coordination into latent space may also move attacks beyond the reach of visible-text inspection. In this paper, we study whether latent states can carry attack-associated information that remains effective during clean executions. To examine this question, we introduce a latent attack framework that reactivates attack-induced effects through latent interventions without reusing adversarial text. Extensive experiments show that the resulting latent-only attacks can substantially degrade task performance in clean executions, especially when applied to inter-agent KV-cache handoffs rather than local hidden states. Further control analyses indicate that this degradation cannot be reduced to arbitrary perturbations or invalid generation. Overall, our findings suggest that latent-based collaboration does not remove attack risk. It shifts part of the risk into less observable execution states, calling for safeguards beyond visible-text inspection.
- Abstract(参考訳): 遅延ベースのマルチエージェントシステムは、明示的なエージェント間通信の一部を隠蔽表現に置き換え、効率的で柔軟なエージェント協調のための新しい方向を提供する。
しかし、遅延空間への調整の移動は、可視テキスト検査の範囲を超えて攻撃を移動させることもある。
本稿では,クリーンな実行中においても有効な攻撃関連情報を,潜伏状態が持てるかどうかについて検討する。
そこで本研究では,敵対的テキストを再利用することなく,潜伏介入による攻撃誘発効果を再活性化する潜伏攻撃フレームワークを提案する。
大規模な実験により、結果として生じる潜伏のみの攻撃は、クリーンな実行において、特に局所的な隠れ状態ではなく、エージェント間KV-cacheハンドオフに適用した場合、タスクパフォーマンスを著しく低下させることが示された。
さらなる制御分析は、この劣化を任意の摂動や不正な発生に還元できないことを示している。
以上の結果から,潜伏型コラボレーションは攻撃リスクを排除していないことが示唆された。
リスクの一部は、可観測性の低い実行状態に移行し、可視テキスト検査を越えてセーフガードを要求する。
関連論文リスト
- Attention Hijacking: Response Manipulation Across Queries in Vision-Language Models [57.870323273127234]
本研究の目的は,画像の持続的支配パターンに対して内的注意を喚起する新たな敵攻撃であるtextbfAttention Hijacking を提案することである。
提案手法は,クエリの特定の単語に対する操作された出力の依存性を低減する。
論文 参考訳(メタデータ) (2026-05-17T08:02:27Z) - Breaking the Secret: Economic Interventions for Combating Collusion in Embodied Multi-Agent Systems [22.697901881084068]
自律エージェント間の衝突は、エンボディ化されたマルチエージェントシステムにおいて重要なセキュリティ脅威となる。
本稿では,エージェントの報酬構造を変えることで,共謀を緩和するインセンティブ的介入手法を提案する。
実験結果から,本手法はシステム効率を保ちながら,欠陥の誘発による癒着を効果的に抑制できることが示唆された。
論文 参考訳(メタデータ) (2026-04-26T03:13:47Z) - Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs [32.38053469964495]
システム間インタラクションを含む拡張されたアクションスペースは、深刻なセキュリティ上の問題を引き起こす。
悪意のある命令をサードパーティのコンテンツ内に隠蔽するIPIは、データ流出などの不正なアクションをトリガーする。
9個のLPMバックボーンにまたがる4つの高度なIPI攻撃ベクトルに対する6つの防御戦略を評価した。
論文 参考訳(メタデータ) (2026-04-04T21:27:04Z) - Is Monitoring Enough? Strategic Agent Selection For Stealthy Attack in Multi-Agent Discussions [22.158075097644968]
マルチエージェントの議論は広く採用され、脆弱性を暴露する攻撃を開発する取り組みが活発化している。
本研究は,実践的だがほとんど探索されていない攻撃シナリオ,議論監視シナリオについて考察する。
既存の攻撃は、議論の監視なしに効果的であることを示すが、検出可能なパターンを示し、そのような監視制約の下では、ほとんど失敗する。
論文 参考訳(メタデータ) (2026-03-22T12:28:30Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - GCP: Guarded Collaborative Perception with Spatial-Temporal Aware Malicious Agent Detection [11.336965062177722]
協調的知覚は、悪意のあるエージェントからの敵対的なメッセージ攻撃に対して脆弱である。
本稿では,既存の単発外乱検出手法を損なう新しい盲検領域混乱(BAC)攻撃を明らかにする。
本稿では、空間的時間的認識による悪意のあるエージェント検出に基づくガード付き協調認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-05T06:03:26Z) - Mitigating Deep Reinforcement Learning Backdoors in the Neural Activation Space [0.24578723416255752]
本稿では,深層強化学習(DRL)エージェントポリシーにおけるバックドアの脅威について検討する。
実行時に検出する新しい方法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:48:23Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。