論文の概要: Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast
- arxiv url: http://arxiv.org/abs/2402.08567v2
- Date: Mon, 3 Jun 2024 14:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 18:43:36.099810
- Title: Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast
- Title(参考訳): エージェントSmith:マルチモーダルのLLMエージェントを1枚1枚で脱獄できる
- Authors: Xiangming Gu, Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Ye Wang, Jing Jiang, Min Lin,
- Abstract要約: マルチモーダル大言語モデル(MLLM)エージェントは、命令を受け取り、画像をキャプチャし、メモリから履歴を検索し、使用するツールを決定することができる。
Red-teamingの取り組みは、敵のイメージ/プロンプトがMLLMをジェイルブレイクし、不整合行動を引き起こすことを明らかにしている。
感染性ジェイルブレイクと呼ばれるマルチエージェント環境において,さらに深刻な安全性の問題が報告されている。
- 参考スコア(独自算出の注目度): 37.82463128368278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A multimodal large language model (MLLM) agent can receive instructions, capture images, retrieve histories from memory, and decide which tools to use. Nonetheless, red-teaming efforts have revealed that adversarial images/prompts can jailbreak an MLLM and cause unaligned behaviors. In this work, we report an even more severe safety issue in multi-agent environments, referred to as infectious jailbreak. It entails the adversary simply jailbreaking a single agent, and without any further intervention from the adversary, (almost) all agents will become infected exponentially fast and exhibit harmful behaviors. To validate the feasibility of infectious jailbreak, we simulate multi-agent environments containing up to one million LLaVA-1.5 agents, and employ randomized pair-wise chat as a proof-of-concept instantiation for multi-agent interaction. Our results show that feeding an (infectious) adversarial image into the memory of any randomly chosen agent is sufficient to achieve infectious jailbreak. Finally, we derive a simple principle for determining whether a defense mechanism can provably restrain the spread of infectious jailbreak, but how to design a practical defense that meets this principle remains an open question to investigate. Our project page is available at https://sail-sg.github.io/Agent-Smith/.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)エージェントは、命令を受け取り、画像をキャプチャし、メモリから履歴を検索し、使用するツールを決定することができる。
それでも、赤チームの努力は、敵対的な画像やプロンプトがMLLMをジェイルブレイクし、不整合行動を引き起こす可能性があることを明らかにしている。
本研究では,感染性ジェイルブレイクと呼ばれるマルチエージェント環境において,さらに深刻な安全性上の問題について報告する。
敵はただ一つのエージェントをジェイルブレイクするだけで、敵の介入なしに、(ほとんど)全てのエージェントが指数関数的に感染し、有害な振る舞いを示す。
感染性ジェイルブレイクの可能性を検証するため、最大100万LLaVA-1.5エージェントを含むマルチエージェント環境をシミュレートし、マルチエージェントインタラクションのための概念実証の手段としてランダム化されたペアワイズチャットを用いる。
その結果, ランダムに選択したエージェントのメモリに(感染した)敵画像を送り込むことで, 感染性ジェイルブレイクを実現するのに十分であることがわかった。
最後に, 防犯機構が感染性ジェイルブレイクの拡散を確実に抑制できるかどうかを決定するための簡単な原理を導出する。
私たちのプロジェクトページはhttps://sail-sg.github.io/Agent-Smith/で公開されています。
関連論文リスト
- JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation [22.75124155879712]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いままである。
本稿では,JBShield-DとJBShield-Mの2つの主要コンポーネントからなる総合的ジェイルブレイク防御フレームワークJBShieldを提案する。
論文 参考訳(メタデータ) (2025-02-11T13:50:50Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、MLLMは脱獄攻撃に弱いままである。
我々は、安全な報酬モデルを利用してジェイルブレイク攻撃を防御する推論時防衛フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue [35.7801861576917]
大きな言語モデル(LLM)は、知識と理解能力の貯蓄において優れた性能を示す。
LLMは、ジェイルブレイク攻撃を受けたとき、違法または非倫理的な反応を起こしやすいことが示されている。
本稿では,人的価値に対する潜在的な脅威を識別・緩和する上でのステルスネスの重要性を強調した,複数ラウンドの対話型ジェイルブレイクエージェントを提案する。
論文 参考訳(メタデータ) (2024-11-06T10:32:09Z) - IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns [19.015202590038996]
エージェントの重要なコンポーネントはメモリであり、重要な情報を格納するが、ジェイルブレイク攻撃の影響を受けやすい。
既存の研究は主に単一エージェント攻撃と共有メモリ攻撃に焦点を当てている。
本稿では,大規模なマルチエージェント・マルチトポロジーテキストによる攻撃評価フレームワークであるTMCHTタスクを提案する。
論文 参考訳(メタデータ) (2024-10-21T16:21:24Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。