論文の概要: The Wolf Within: Covert Injection of Malice into MLLM Societies via an
MLLM Operative
- arxiv url: http://arxiv.org/abs/2402.14859v1
- Date: Tue, 20 Feb 2024 23:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:30:24.221639
- Title: The Wolf Within: Covert Injection of Malice into MLLM Societies via an
MLLM Operative
- Title(参考訳): オオカミの体内:mllm操作によるmllm社会への悪意の隠密注入
- Authors: Zhen Tan, Chengshuai Zhao, Raha Moraffah, Yifan Li, Yu Kong, Tianlong
Chen, Huan Liu
- Abstract要約: 本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
MLLMの直接有害な出力生成とは違って,1つのMLLMエージェントを微妙に影響してプロンプトを生成する方法を示す。
この微妙で強力な間接的影響の手法は、MLLMに関連するセキュリティリスクを著しくエスカレーションしている。
- 参考スコア(独自算出の注目度): 57.84617923683107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to their unprecedented ability to process and respond to various types of
data, Multimodal Large Language Models (MLLMs) are constantly defining the new
boundary of Artificial General Intelligence (AGI). As these advanced generative
models increasingly form collaborative networks for complex tasks, the
integrity and security of these systems are crucial. Our paper, ``The Wolf
Within'', explores a novel vulnerability in MLLM societies - the indirect
propagation of malicious content. Unlike direct harmful output generation for
MLLMs, our research demonstrates how a single MLLM agent can be subtly
influenced to generate prompts that, in turn, induce other MLLM agents in the
society to output malicious content. This subtle, yet potent method of indirect
influence marks a significant escalation in the security risks associated with
MLLMs. Our findings reveal that, with minimal or even no access to MLLMs'
parameters, an MLLM agent, when manipulated to produce specific prompts or
instructions, can effectively ``infect'' other agents within a society of
MLLMs. This infection leads to the generation and circulation of harmful
outputs, such as dangerous instructions or misinformation, across the society.
We also show the transferability of these indirectly generated prompts,
highlighting their possibility in propagating malice through inter-agent
communication. This research provides a critical insight into a new dimension
of threat posed by MLLMs, where a single agent can act as a catalyst for
widespread malevolent influence. Our work underscores the urgent need for
developing robust mechanisms to detect and mitigate such covert manipulations
within MLLM societies, ensuring their safe and ethical utilization in societal
applications. Our implementation is released at
\url{https://github.com/ChengshuaiZhao0/The-Wolf-Within.git}.
- Abstract(参考訳): 様々な種類のデータに対して処理および応答する前例のない能力のため、MLLM(Multimodal Large Language Models)は、人工知能(AGI)の新しい境界を常に定義している。
これらの高度な生成モデルが複雑なタスクのための協調ネットワークを形成するにつれて、システムの整合性とセキュリティが重要になっている。
我々の論文『The Wolf Inside'』は、悪意のあるコンテンツの間接的伝播であるMLLM社会における新たな脆弱性を探求している。
MLLMの直接有害な出力生成とは異なり、我々の研究は、単一のMLLMエージェントを微妙に影響して、社会内の他のMLLMエージェントに悪意のあるコンテンツを出力させるプロンプトを生成する方法を示している。
この微妙で強力な間接的影響の手法は、MLLMに関連するセキュリティリスクを著しくエスカレーションしている。
MLLMは,MLLMのパラメータに最小あるいは全くアクセスできないため,特定のプロンプトや指示を生成するために操作されたエージェントは,MLLMの社会において,他のエージェントを効果的に「感染」することができることがわかった。
この感染は、社会全体で危険な指示や誤報などの有害なアウトプットの生成と流通につながる。
また,これらの間接的なプロンプトの伝達可能性を示し,エージェント間コミュニケーションによる悪性度伝播の可能性を強調した。
この研究は、MLLMによって引き起こされる脅威の新たな次元について批判的な洞察を与える。
本研究は,MLLM社会における包括的操作を検知・緩和するロバストなメカニズム開発の必要性を浮き彫りにし,社会的応用における安全・倫理的利用の確保を図ったものである。
我々の実装は \url{https://github.com/ChengshuaiZhao0/The-Wolf-Within.git} でリリースされています。
関連論文リスト
- Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
MLLMの安全性を意識した新しいトレーニング不要保護手法ECSO(Eyes Closed, Safety On, Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、あらかじめ整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based
Agents [50.034049716274005]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
まず、エージェントバックドア攻撃の一般的な枠組みを定式化し、その後、エージェントバックドア攻撃の様々な形態について徹底的に分析する。
本稿では,2つの典型的なエージェント・タスクに対するエージェント・バックドア・アタックのバリエーションを実装するためのデータ中毒機構を提案する。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Exploring the Adversarial Capabilities of Large Language Models [28.16799731196294]
大きな言語モデル(LLM)は、良心的なサンプルから敵の例を作れば、既存の安全なレールを騙すことができる。
我々の実験は、ヘイトスピーチ検出に焦点をあて、LLMが敵の摂動を見つけることに成功し、ヘイトスピーチ検出システムを効果的に損なうことを示した。
論文 参考訳(メタデータ) (2024-02-14T12:28:38Z) - MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [31.043844145980675]
MLLM(Multimodal large language model)は、視覚入力による悪意のある攻撃を受けやすい言語である。
MLLM-Protectorは,軽量な高調波検出器と応答デトキシファイタを組み合わせたプラグアンドプレイ方式である。
このアプローチは、モデル全体のパフォーマンスを損なうことなく、悪意のある視覚入力によって引き起こされるリスクを効果的に軽減する。
論文 参考訳(メタデータ) (2024-01-05T17:05:42Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large
Language Models [44.1948821279342]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。