論文の概要: The Wolf Within: Covert Injection of Malice into MLLM Societies via an
MLLM Operative
- arxiv url: http://arxiv.org/abs/2402.14859v1
- Date: Tue, 20 Feb 2024 23:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:30:24.221639
- Title: The Wolf Within: Covert Injection of Malice into MLLM Societies via an
MLLM Operative
- Title(参考訳): オオカミの体内:mllm操作によるmllm社会への悪意の隠密注入
- Authors: Zhen Tan, Chengshuai Zhao, Raha Moraffah, Yifan Li, Yu Kong, Tianlong
Chen, Huan Liu
- Abstract要約: 本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
MLLMの直接有害な出力生成とは違って,1つのMLLMエージェントを微妙に影響してプロンプトを生成する方法を示す。
この微妙で強力な間接的影響の手法は、MLLMに関連するセキュリティリスクを著しくエスカレーションしている。
- 参考スコア(独自算出の注目度): 57.84617923683107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to their unprecedented ability to process and respond to various types of
data, Multimodal Large Language Models (MLLMs) are constantly defining the new
boundary of Artificial General Intelligence (AGI). As these advanced generative
models increasingly form collaborative networks for complex tasks, the
integrity and security of these systems are crucial. Our paper, ``The Wolf
Within'', explores a novel vulnerability in MLLM societies - the indirect
propagation of malicious content. Unlike direct harmful output generation for
MLLMs, our research demonstrates how a single MLLM agent can be subtly
influenced to generate prompts that, in turn, induce other MLLM agents in the
society to output malicious content. This subtle, yet potent method of indirect
influence marks a significant escalation in the security risks associated with
MLLMs. Our findings reveal that, with minimal or even no access to MLLMs'
parameters, an MLLM agent, when manipulated to produce specific prompts or
instructions, can effectively ``infect'' other agents within a society of
MLLMs. This infection leads to the generation and circulation of harmful
outputs, such as dangerous instructions or misinformation, across the society.
We also show the transferability of these indirectly generated prompts,
highlighting their possibility in propagating malice through inter-agent
communication. This research provides a critical insight into a new dimension
of threat posed by MLLMs, where a single agent can act as a catalyst for
widespread malevolent influence. Our work underscores the urgent need for
developing robust mechanisms to detect and mitigate such covert manipulations
within MLLM societies, ensuring their safe and ethical utilization in societal
applications. Our implementation is released at
\url{https://github.com/ChengshuaiZhao0/The-Wolf-Within.git}.
- Abstract(参考訳): 様々な種類のデータに対して処理および応答する前例のない能力のため、MLLM(Multimodal Large Language Models)は、人工知能(AGI)の新しい境界を常に定義している。
これらの高度な生成モデルが複雑なタスクのための協調ネットワークを形成するにつれて、システムの整合性とセキュリティが重要になっている。
我々の論文『The Wolf Inside'』は、悪意のあるコンテンツの間接的伝播であるMLLM社会における新たな脆弱性を探求している。
MLLMの直接有害な出力生成とは異なり、我々の研究は、単一のMLLMエージェントを微妙に影響して、社会内の他のMLLMエージェントに悪意のあるコンテンツを出力させるプロンプトを生成する方法を示している。
この微妙で強力な間接的影響の手法は、MLLMに関連するセキュリティリスクを著しくエスカレーションしている。
MLLMは,MLLMのパラメータに最小あるいは全くアクセスできないため,特定のプロンプトや指示を生成するために操作されたエージェントは,MLLMの社会において,他のエージェントを効果的に「感染」することができることがわかった。
この感染は、社会全体で危険な指示や誤報などの有害なアウトプットの生成と流通につながる。
また,これらの間接的なプロンプトの伝達可能性を示し,エージェント間コミュニケーションによる悪性度伝播の可能性を強調した。
この研究は、MLLMによって引き起こされる脅威の新たな次元について批判的な洞察を与える。
本研究は,MLLM社会における包括的操作を検知・緩和するロバストなメカニズム開発の必要性を浮き彫りにし,社会的応用における安全・倫理的利用の確保を図ったものである。
我々の実装は \url{https://github.com/ChengshuaiZhao0/The-Wolf-Within.git} でリリースされています。
関連論文リスト
- When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に対して脆弱である。
本稿では,自然言語説明の新しいレンズを用いたバックドア機能について検討する。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems [6.480532634073257]
本稿では、相互接続されたエージェント間で、悪意のある自己複製を促す新しい攻撃であるPrompt infectionを紹介する。
この攻撃は、データ盗難、詐欺、誤報、システム全体の破壊など、深刻な脅威を引き起こす。
そこで本研究では,既存の安全対策と組み合わせることで感染拡大を著しく軽減する防衛機構であるLSM Taggingを提案する。
論文 参考訳(メタデータ) (2024-10-09T11:01:29Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Can LLMs be Fooled? Investigating Vulnerabilities in LLMs [4.927763944523323]
LLM(Large Language Models)の出現は、自然言語処理(NLP)内の様々な領域で大きな人気を集め、膨大なパワーを誇っている。
本稿では,各脆弱性部の知見を合成し,新たな研究・開発の方向性を提案する。
現在の脆弱性の焦点を理解することで、将来のリスクを予測し軽減できます。
論文 参考訳(メタデータ) (2024-07-30T04:08:00Z) - Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities [28.244283407749265]
マルチエージェントシステムにおける大規模言語モデル(LLM)のセキュリティへの影響について検討する。
本稿では,説得力注入と操作的知識注入を含む2段階攻撃手法を提案する。
本手法は, LLMをベースとしたエージェントを誘導し, 有害な知識の拡散に有効であることを示す。
論文 参考訳(メタデータ) (2024-07-10T16:08:46Z) - Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security [5.077261736366414]
強力なMLLMのような信頼性の高いAIシステムの追求は、現代研究の重要な領域として現れている。
本稿では,画像モダリティのMLLMへの導入に伴う多面的リスクの軽減に努める。
論文 参考訳(メタデータ) (2024-04-08T07:54:18Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - Exploring the Adversarial Capabilities of Large Language Models [25.7847594292453]
大きな言語モデル(LLM)は、良心的なサンプルから敵の例を作れば、既存の安全なレールを騙すことができる。
我々の実験は、ヘイトスピーチ検出に焦点をあて、LLMが敵の摂動を見つけることに成功し、ヘイトスピーチ検出システムを効果的に損なうことを示した。
論文 参考訳(メタデータ) (2024-02-14T12:28:38Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。