論文の概要: Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2507.04724v1
- Date: Mon, 07 Jul 2025 07:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.313032
- Title: Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems
- Title(参考訳): LLMをベースとした多エージェントシステムにおける意図にかかわる悪性エージェントのモデリングと検出
- Authors: Yizhe Xie, Congcong Zhu, Xinyue Zhang, Minghao Wang, Chi Liu, Minglu Zhu, Tianqing Zhu,
- Abstract要約: 大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
本稿では,HEXACOパーソナリティモデルとReid Techniqueを組み合わせた心理学的検出フレームワークAgentXposedを提案する。
本研究は、意図的攻撃による構造的・行動的リスクを明らかにし、LLMベースのマルチエージェントシステムの安全性に関する貴重な知見を提供する。
- 参考スコア(独自算出の注目度): 15.843105510334388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent systems powered by Large Language Models (LLM-MAS) demonstrate remarkable capabilities in collaborative problem-solving. While LLM-MAS exhibit strong collaborative abilities, the security risks in their communication and coordination remain underexplored. We bridge this gap by systematically investigating intention-hiding threats in LLM-MAS, and design four representative attack paradigms that subtly disrupt task completion while maintaining high concealment. These attacks are evaluated in centralized, decentralized, and layered communication structures. Experiments conducted on six benchmark datasets, including MMLU, MMLU-Pro, HumanEval, GSM8K, arithmetic, and biographies, demonstrate that they exhibit strong disruptive capabilities. To identify these threats, we propose a psychology-based detection framework AgentXposed, which combines the HEXACO personality model with the Reid Technique, using progressive questionnaire inquiries and behavior-based monitoring. Experiments conducted on six types of attacks show that our detection framework effectively identifies all types of malicious behaviors. The detection rate for our intention-hiding attacks is slightly lower than that of the two baselines, Incorrect Fact Injection and Dark Traits Injection, demonstrating the effectiveness of intention concealment. Our findings reveal the structural and behavioral risks posed by intention-hiding attacks and offer valuable insights into securing LLM-based multi-agent systems through psychological perspectives, which contributes to a deeper understanding of multi-agent safety. The code and data are available at https://anonymous.4open.science/r/AgentXposed-F814.
- Abstract(参考訳): LLM-MAS(Large Language Models)を用いたマルチエージェントシステムは,協調的問題解決において顕著な能力を示す。
LLM-MASは強力な協調能力を示すが、通信と協調のセキュリティリスクは未解明のままである。
LLM-MASにおける意図を隠蔽する脅威を体系的に調査し、高い隠蔽を維持しながらタスク完了を微妙に妨害する4つの代表的な攻撃パラダイムを設計することによって、このギャップを埋める。
これらの攻撃は、中央集権的、分散化され、階層化された通信構造で評価される。
MMLU、MMLU-Pro、HumanEval、GSM8K、算術、バイオグラフィーを含む6つのベンチマークデータセットで実施された実験は、強い破壊能力を示すことを示した。
これらの脅威を特定するために,HEXACOパーソナリティモデルとReid Techniqueを組み合わせた心理学ベースのAgentXposedを提案する。
6種類の攻撃に対して行われた実験により、我々の検出フレームワークは、あらゆる種類の悪意ある振る舞いを効果的に識別することを示した。
意図を隠蔽する攻撃の検知率は,2つのベースライン,不正確なファクトインジェクションとダークトラストインジェクションよりわずかに低く,意図の隠蔽の有効性を示す。
本研究は, 意図的攻撃による構造的・行動的リスクを明らかにするとともに, 心理的観点からのLLMに基づくマルチエージェントシステムの安全性に関する貴重な知見を提供し, マルチエージェントの安全性のより深い理解に寄与している。
コードとデータはhttps://anonymous.4open.science/r/AgentXposed-F814で公開されている。
関連論文リスト
- SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - MultiPhishGuard: An LLM-based Multi-Agent System for Phishing Email Detection [3.187381965457262]
MultiPhishGuardは動的マルチエージェント検出システムである。
本フレームワークでは, 政策最適化強化学習アルゴリズムを用いて, 自動決定重み付けを行う5つの協調エージェントを用いる。
実験により、MultiPhishGuardは偽陽性(2.73%)と偽陰性率(0.20%)で高い精度(97.89%)を達成することが示された。
論文 参考訳(メタデータ) (2025-05-26T23:27:15Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities [28.244283407749265]
マルチエージェントシステムにおける大規模言語モデル(LLM)のセキュリティへの影響について検討する。
本稿では,説得力注入と操作的知識注入を含む2段階攻撃手法を提案する。
本手法は, LLMをベースとしたエージェントを誘導し, 有害な知識の拡散に有効であることを示す。
論文 参考訳(メタデータ) (2024-07-10T16:08:46Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z) - Forcing Generative Models to Degenerate Ones: The Power of Data
Poisoning Attacks [10.732558183444985]
悪意のあるアクターは、望ましくない出力を生成することを目的とした中毒攻撃を通じて、大きな言語モデル(LLM)の脆弱性を隠蔽的に利用することができる。
本報告では, 様々な生成タスクにおいて, その有効性を評価するために, 様々な中毒技術について検討する。
本研究は, 微調整段階において, 全チューニングデータサンプルの1%程度を用いてLSMに毒を盛ることが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-07T23:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。