論文の概要: Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast
- arxiv url: http://arxiv.org/abs/2402.08567v2
- Date: Mon, 3 Jun 2024 14:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 18:43:36.099810
- Title: Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast
- Title(参考訳): エージェントSmith:マルチモーダルのLLMエージェントを1枚1枚で脱獄できる
- Authors: Xiangming Gu, Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Ye Wang, Jing Jiang, Min Lin,
- Abstract要約: マルチモーダル大言語モデル(MLLM)エージェントは、命令を受け取り、画像をキャプチャし、メモリから履歴を検索し、使用するツールを決定することができる。
Red-teamingの取り組みは、敵のイメージ/プロンプトがMLLMをジェイルブレイクし、不整合行動を引き起こすことを明らかにしている。
感染性ジェイルブレイクと呼ばれるマルチエージェント環境において,さらに深刻な安全性の問題が報告されている。
- 参考スコア(独自算出の注目度): 37.82463128368278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A multimodal large language model (MLLM) agent can receive instructions, capture images, retrieve histories from memory, and decide which tools to use. Nonetheless, red-teaming efforts have revealed that adversarial images/prompts can jailbreak an MLLM and cause unaligned behaviors. In this work, we report an even more severe safety issue in multi-agent environments, referred to as infectious jailbreak. It entails the adversary simply jailbreaking a single agent, and without any further intervention from the adversary, (almost) all agents will become infected exponentially fast and exhibit harmful behaviors. To validate the feasibility of infectious jailbreak, we simulate multi-agent environments containing up to one million LLaVA-1.5 agents, and employ randomized pair-wise chat as a proof-of-concept instantiation for multi-agent interaction. Our results show that feeding an (infectious) adversarial image into the memory of any randomly chosen agent is sufficient to achieve infectious jailbreak. Finally, we derive a simple principle for determining whether a defense mechanism can provably restrain the spread of infectious jailbreak, but how to design a practical defense that meets this principle remains an open question to investigate. Our project page is available at https://sail-sg.github.io/Agent-Smith/.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)エージェントは、命令を受け取り、画像をキャプチャし、メモリから履歴を検索し、使用するツールを決定することができる。
それでも、赤チームの努力は、敵対的な画像やプロンプトがMLLMをジェイルブレイクし、不整合行動を引き起こす可能性があることを明らかにしている。
本研究では,感染性ジェイルブレイクと呼ばれるマルチエージェント環境において,さらに深刻な安全性上の問題について報告する。
敵はただ一つのエージェントをジェイルブレイクするだけで、敵の介入なしに、(ほとんど)全てのエージェントが指数関数的に感染し、有害な振る舞いを示す。
感染性ジェイルブレイクの可能性を検証するため、最大100万LLaVA-1.5エージェントを含むマルチエージェント環境をシミュレートし、マルチエージェントインタラクションのための概念実証の手段としてランダム化されたペアワイズチャットを用いる。
その結果, ランダムに選択したエージェントのメモリに(感染した)敵画像を送り込むことで, 感染性ジェイルブレイクを実現するのに十分であることがわかった。
最後に, 防犯機構が感染性ジェイルブレイクの拡散を確実に抑制できるかどうかを決定するための簡単な原理を導出する。
私たちのプロジェクトページはhttps://sail-sg.github.io/Agent-Smith/で公開されています。
関連論文リスト
- RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent [24.487441771427434]
我々は,コンテキスト認識型ジェイルブレイクプロンプトを生成するためのマルチエージェントLLMシステムRedAgentを提案する。
我々のシステムは、ほとんどのブラックボックスLSMをたった5つのクエリでジェイルブレイクすることができ、既存のレッドチーム方式の効率を2倍に向上させることができる。
すべての問題を報告し、バグ修正のためにOpenAIとMetaと通信しました。
論文 参考訳(メタデータ) (2024-07-23T17:34:36Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z) - Tastle: Distract Large Language Models for Automatic Jailbreak Attack [9.137714258654842]
大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。
我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。
また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。