論文の概要: Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities
- arxiv url: http://arxiv.org/abs/2407.07791v2
- Date: Tue, 23 Jul 2024 01:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 22:04:29.201166
- Title: Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities
- Title(参考訳): LLMに基づくマルチエージェントコミュニティにおける操作知識の洪水拡散
- Authors: Tianjie Ju, Yiting Wang, Xinbei Ma, Pengzhou Cheng, Haodong Zhao, Yulong Wang, Lifeng Liu, Jian Xie, Zhuosheng Zhang, Gongshen Liu,
- Abstract要約: マルチエージェントシステムにおける大規模言語モデル(LLM)のセキュリティへの影響について検討する。
本稿では,説得力注入と操作的知識注入を含む2段階攻撃手法を提案する。
本手法は, LLMをベースとしたエージェントを誘導し, 有害な知識の拡散に有効であることを示す。
- 参考スコア(独自算出の注目度): 28.244283407749265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid adoption of large language models (LLMs) in multi-agent systems has highlighted their impressive capabilities in various applications, such as collaborative problem-solving and autonomous negotiation. However, the security implications of these LLM-based multi-agent systems have not been thoroughly investigated, particularly concerning the spread of manipulated knowledge. In this paper, we investigate this critical issue by constructing a detailed threat model and a comprehensive simulation environment that mirrors real-world multi-agent deployments in a trusted platform. Subsequently, we propose a novel two-stage attack method involving Persuasiveness Injection and Manipulated Knowledge Injection to systematically explore the potential for manipulated knowledge (i.e., counterfactual and toxic knowledge) spread without explicit prompt manipulation. Our method leverages the inherent vulnerabilities of LLMs in handling world knowledge, which can be exploited by attackers to unconsciously spread fabricated information. Through extensive experiments, we demonstrate that our attack method can successfully induce LLM-based agents to spread both counterfactual and toxic knowledge without degrading their foundational capabilities during agent communication. Furthermore, we show that these manipulations can persist through popular retrieval-augmented generation frameworks, where several benign agents store and retrieve manipulated chat histories for future interactions. This persistence indicates that even after the interaction has ended, the benign agents may continue to be influenced by manipulated knowledge. Our findings reveal significant security risks in LLM-based multi-agent systems, emphasizing the imperative need for robust defenses against manipulated knowledge spread, such as introducing ``guardian'' agents and advanced fact-checking tools.
- Abstract(参考訳): マルチエージェントシステムにおける大規模言語モデル(LLM)の急速な採用は、協調問題解決や自律交渉など、様々なアプリケーションにおけるその印象的な機能を強調している。
しかし、これらのLLMベースのマルチエージェントシステムのセキュリティへの影響は、特に操作された知識の普及に関して、十分に研究されていない。
本稿では,信頼されたプラットフォームにおける実世界のマルチエージェント展開を反映した,詳細な脅威モデルと包括的なシミュレーション環境を構築することで,この問題を考察する。
そこで本研究では,暗黙的な操作を行うことなく,操作された知識(事実や有害な知識)が拡散する可能性を体系的に探索する,説得力注入と操作的知識注入を含む新たな2段階攻撃手法を提案する。
本手法は,無意識で偽造情報を拡散するために,攻撃者が悪用できる世界知識を扱う上で,LLMの本質的な脆弱性を利用する。
広範囲にわたる実験により, エージェントコミュニケーションにおける基礎的能力の低下を伴わずに, LLMをベースとしたエージェントを誘導し, 有害な知識を拡散させることが実証された。
さらに、これらの操作は、いくつかの良性エージェントが将来的なインタラクションのために操作されたチャット履歴を格納し、検索する一般的な検索拡張生成フレームワークを通じて継続可能であることを示す。
この永続性は、相互作用が終わった後も、良性エージェントは操作された知識の影響を受け続けることを示している。
LLMベースのマルチエージェントシステムにおいて,「ガード」エージェントや高度なファクトチェックツールの導入など,操作された知識の拡散に対する堅牢な防御の必要性を強調し,セキュリティ上の重大なリスクを明らかにした。
関連論文リスト
- A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Controlling Large Language Model Agents with Entropic Activation Steering [20.56909601159833]
本研究では,大規模言語モデル(LLM)が,制御された逐次意思決定タスクにおいて実験を行うことで,信念にどのように作用するかを検討する。
不十分な証拠に基づいて何をすべきかという強い結論を導き、結果として爆発的な振る舞いが不十分になる。
In-context LLMエージェントのアクティベーションステアリング法であるEntropic Activation Steering (EAST)を導入する。
論文 参考訳(メタデータ) (2024-06-01T00:25:00Z) - Exploring Backdoor Attacks against Large Language Model-based Decision Making [27.316115171846953]
大規模言語モデル(LLM)は、特定のアプリケーションで微調整された場合、意思決定タスクにおいて大きな可能性を示している。
これらのシステムは、微調整の段階でかなりの安全性とセキュリティ上のリスクにさらされている。
LLM対応意思決定システムに対するバックドアアタックの最初の包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based
Agents [50.034049716274005]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
まず、エージェントバックドア攻撃の一般的な枠組みを定式化し、その後、エージェントバックドア攻撃の様々な形態について徹底的に分析する。
本稿では,2つの典型的なエージェント・タスクに対するエージェント・バックドア・アタックのバリエーションを実装するためのデータ中毒機構を提案する。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Exploring the Adversarial Capabilities of Large Language Models [25.7847594292453]
大きな言語モデル(LLM)は、良心的なサンプルから敵の例を作れば、既存の安全なレールを騙すことができる。
我々の実験は、ヘイトスピーチ検出に焦点をあて、LLMが敵の摂動を見つけることに成功し、ヘイトスピーチ検出システムを効果的に損なうことを示した。
論文 参考訳(メタデータ) (2024-02-14T12:28:38Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。