論文の概要: Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM
Agents Exponentially Fast
- arxiv url: http://arxiv.org/abs/2402.08567v1
- Date: Tue, 13 Feb 2024 16:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 14:40:02.286275
- Title: Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM
Agents Exponentially Fast
- Title(参考訳): エージェントSmith:マルチモーダルのLLMエージェントを1枚1枚で脱獄できる
- Authors: Xiangming Gu, Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Ye Wang,
Jing Jiang, Min Lin
- Abstract要約: マルチモーダル大言語モデル(MLLM)エージェントは、命令を受け取り、画像をキャプチャし、メモリから履歴を検索し、使用するツールを決定することができる。
Red-teamingの取り組みは、敵のイメージ/プロンプトがMLLMをジェイルブレイクし、不整合行動を引き起こすことを明らかにしている。
感染性ジェイルブレイクと呼ばれるマルチエージェント環境において,さらに深刻な安全性の問題が報告されている。
- 参考スコア(独自算出の注目度): 39.45374595078185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A multimodal large language model (MLLM) agent can receive instructions,
capture images, retrieve histories from memory, and decide which tools to use.
Nonetheless, red-teaming efforts have revealed that adversarial images/prompts
can jailbreak an MLLM and cause unaligned behaviors. In this work, we report an
even more severe safety issue in multi-agent environments, referred to as
infectious jailbreak. It entails the adversary simply jailbreaking a single
agent, and without any further intervention from the adversary, (almost) all
agents will become infected exponentially fast and exhibit harmful behaviors.
To validate the feasibility of infectious jailbreak, we simulate multi-agent
environments containing up to one million LLaVA-1.5 agents, and employ
randomized pair-wise chat as a proof-of-concept instantiation for multi-agent
interaction. Our results show that feeding an (infectious) adversarial image
into the memory of any randomly chosen agent is sufficient to achieve
infectious jailbreak. Finally, we derive a simple principle for determining
whether a defense mechanism can provably restrain the spread of infectious
jailbreak, but how to design a practical defense that meets this principle
remains an open question to investigate. Our project page is available at
https://sail-sg.github.io/Agent-Smith/.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)エージェントは、命令を受け取り、画像をキャプチャし、メモリから履歴を検索し、使用するツールを決定することができる。
それでも、赤チームの努力は、敵対的な画像やプロンプトがMLLMをジェイルブレイクし、不整合行動を引き起こす可能性があることを明らかにしている。
本研究では,感染性脱獄と呼ばれるマルチエージェント環境において,さらに深刻な安全性問題が発生したことを報告する。
敵は単に一つのエージェントをジェイルブレイクし、敵からのそれ以上の介入なしに、(ほとんど)すべてのエージェントが指数関数的に感染し、有害な行動を示す。
感染性ジェイルブレイクの可能性を検証するため、最大100万LLaVA-1.5エージェントを含むマルチエージェント環境をシミュレートし、マルチエージェントインタラクションのための概念実証の手段としてランダム化されたペアワイズチャットを用いる。
その結果, ランダムに選択したエージェントのメモリに(感染した)敵画像を送ると, 感染性ジェイルブレイクを達成できることがわかった。
最後に、防御機構が感染性脱獄の拡散を効果的に抑制できるかどうかを判断するための簡単な原則を導出するが、この原則に適合する実用的な防御をいかに設計するかは、調査すべき未解決の問題である。
プロジェクトのページはhttps://sail-sg.github.io/agent-smith/で閲覧できます。
関連論文リスト
- Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Tastle: Distract Large Language Models for Automatic Jailbreak Attack [9.137714258654842]
大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。
我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。
また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Defending Jailbreak Prompts via In-Context Adversarial Game [34.83853184278604]
In-Context Adversarial Game(ICAG)を導入し、細調整を必要とせずにジェイルブレイクを防御する。
静的データセットに依存する従来の方法とは異なり、ICAGは防御エージェントと攻撃エージェントの両方を強化するために反復的なプロセスを採用している。
ICAGにより保護されたLSMがジェイルブレイクの成功率を大幅に低下させるICAGの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-20T17:04:06Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - A Mutation-Based Method for Multi-Modal Jailbreaking Attack Detection [33.68245864063747]
JailGuardは、画像とテキストのモダリティの両方をサポートする、突然変異ベースのジェイルブレイク検出フレームワークである。
JailGuardは、画像とテキストの入力で89.38%/85.42%の最高の検出精度を達成し、最先端の防御手法を15.28%上回った。
論文 参考訳(メタデータ) (2023-12-17T17:02:14Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。