論文の概要: When Embedding-Based Defenses Fail: Rethinking Safety in LLM-Based Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2605.01133v1
- Date: Fri, 01 May 2026 22:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.601985
- Title: When Embedding-Based Defenses Fail: Rethinking Safety in LLM-Based Multi-Agent Systems
- Title(参考訳): 埋め込み型防衛が失敗する時 - LLMベースのマルチエージェントシステムにおける安全性の再考-
- Authors: Lingxi Zhang, Guangtao Zheng, Hanjie Chen,
- Abstract要約: 大規模言語モデル (LLM) を利用したマルチエージェントシステム (MAS) により、エージェントは情報通信と共有が可能となり、複雑なタスクにおいて高いパフォーマンスを達成できる。
既存の埋め込みベースの防御は、疑わしいエージェントを検出してプルークすることを目的としているが、その効果は悪意のあるメッセージと良心的なメッセージの埋め込みを明確に分離することに依存する。
我々は,この障害モードを理論的に解析し,Slow Drift, Benign Wrapper, Chaos Seedingの3つの攻撃を経験的に検証する。
- 参考スコア(独自算出の注目度): 18.461135869777316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-powered multi-agent systems (MAS) enable agents to communicate and share information, achieving strong performance on complex tasks. However, this communication also creates an attack surface where malicious agents can propagate misinformation and manipulate group decisions, undermining MAS safety. Existing embedding-based defenses aim to detect and prune suspicious agents, but their effectiveness depends on a clear separation between the text embeddings of malicious and benign messages. Attackers can circumvent such defenses by crafting messages whose embeddings lie close to benign ones. We analyze this failure mode theoretically and validate it empirically with three attacks, Slow Drift, Benign Wrapper, and Chaos Seeding. Our analysis further reveals a fundamental limitation of embedding-based defenses: because they rely solely on the text embeddings, they ignore token-level confidence signals such as logits, which can remain informative when embeddings are not distinguishable under attack. We propose using confidence scores to prune or down-weight messages during MAS communication. Experiments show improved robustness across models, datasets, and communication topologies. Moreover, we find that the effectiveness of confidence signals decays over communication rounds, highlighting the importance of early intervention. This insights can inform and inspire future work on MAS attacks and defenses.
- Abstract(参考訳): 大規模言語モデル (LLM) を利用したマルチエージェントシステム (MAS) により、エージェントは情報通信と共有が可能となり、複雑なタスクにおいて高いパフォーマンスを達成できる。
しかし、このコミュニケーションはまた、悪意のあるエージェントが誤情報を伝達し、グループ決定を操作し、MASの安全性を損なうような攻撃面も生み出す。
既存の埋め込みベースの防御は、疑わしいエージェントを検出してプルークすることを目的としているが、その有効性は、悪意のあるメッセージと良心的なメッセージの埋め込みを明確に分離することに依存する。
攻撃者は、埋め込みが良心に近いメッセージを作ることで、そのような防御を回避できる。
我々は,この障害モードを理論的に解析し,Slow Drift, Benign Wrapper, Chaos Seedingの3つの攻撃を経験的に検証する。
テキスト埋め込みのみに頼っているため、ロジットのようなトークンレベルの信頼信号は無視されるため、埋め込みが攻撃下で識別できない場合には情報的であり続けることができる。
我々は,MAS通信における信頼度スコアを用いて,メッセージのプーンやダウンウェイト化を提案する。
実験では、モデル、データセット、通信トポロジ間の堅牢性が改善されている。
さらに,信頼信号の有効性はコミュニケーションラウンドで低下し,早期介入の重要性が浮き彫りになる。
この洞察は、MAS攻撃と防衛に関する今後の研究を知らせ、刺激することができる。
関連論文リスト
- Don't Trust Stubborn Neighbors: A Security Framework for Agentic Networks [32.791374704820925]
悪意または妥協されたエージェントは、誤った情報を伝達し、集合的な結果を操作するために通信チャネルを利用することができる。
本研究では,社会科学からFriedkin-Johnsen意見形成モデルを借りて,このような操作がいかに広まるかを検討する。
本稿では,エージェント間の信頼を動的に調整し,敵の影響力を抑えることによって脅威を軽減する新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2026-03-16T18:41:21Z) - The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration [72.33801123508145]
大規模言語モデル(LLM)はマルチエージェントシステムに不可欠なものである。
プライバシーリスクは、暗記、直接推論、シングルターン評価を超えて現れる。
特に、相互作用によって構成される一見無害な反応は、敵が機密情報の回復を累積的に行うことができる。
論文 参考訳(メタデータ) (2025-09-16T16:57:25Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Robust Communicative Multi-Agent Reinforcement Learning with Active
Defense [38.6815513394882]
エージェントは、潜在的に有害なメッセージが最終決定に与える影響を自動的に軽減するアクティブ・ディフェンス戦略を提案する。
我々は、受信したメッセージの信頼性を推定し、最終決定への影響を調整するアクティブディフェンス・マルチエージェント通信フレームワーク(ADMAC)を設計する。
既存の手法よりもADMACの方が優れていることは、4種類の攻撃下での3つのコミュニケーションクリティカルなタスクの実験によって検証される。
論文 参考訳(メタデータ) (2023-12-16T09:02:56Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Certifiably Robust Policy Learning against Adversarial Communication in
Multi-agent Systems [51.6210785955659]
多くのマルチエージェント強化学習(MARL)では,エージェントが情報を共有し,適切な判断を下す上でコミュニケーションが重要である。
しかし、ノイズや潜在的な攻撃者が存在する現実世界のアプリケーションに訓練された通信エージェントを配置すると、通信ベースのポリシーの安全性は過小評価されている深刻な問題となる。
本研究では,攻撃者が任意の$CfracN-12$エージェントから被害者エージェントへの通信を任意に変更できる,$N$エージェントを備えた環境を検討する。
論文 参考訳(メタデータ) (2022-06-21T07:32:18Z) - Adversarial Attacks On Multi-Agent Communication [80.4392160849506]
現代の自律システムはすぐに大規模に展開され、協調型マルチエージェントシステムの可能性を広げる。
このような利点は、セキュリティ侵害に対して脆弱であることが示されている通信チャネルに大きく依存している。
本稿では,エージェントが学習した中間表現を共有してコミュニケーションする新しいマルチエージェント環境において,このような攻撃を探索する。
論文 参考訳(メタデータ) (2021-01-17T00:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。