論文の概要: Jailbreaking Attack against Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2402.02309v1
- Date: Sun, 4 Feb 2024 01:29:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:53:34.012324
- Title: Jailbreaking Attack against Multimodal Large Language Model
- Title(参考訳): マルチモーダル大言語モデルに対する脱獄攻撃
- Authors: Zhenxing Niu and Haodong Ren and Xinbo Gao and Gang Hua and Rong Jin
- Abstract要約: 本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
- 参考スコア(独自算出の注目度): 69.52466793164618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on jailbreaking attacks against multi-modal large language
models (MLLMs), seeking to elicit MLLMs to generate objectionable responses to
harmful user queries. A maximum likelihood-based algorithm is proposed to find
an \emph{image Jailbreaking Prompt} (imgJP), enabling jailbreaks against MLLMs
across multiple unseen prompts and images (i.e., data-universal property). Our
approach exhibits strong model-transferability, as the generated imgJP can be
transferred to jailbreak various models, including MiniGPT-v2, LLaVA,
InstructBLIP, and mPLUG-Owl2, in a black-box manner. Moreover, we reveal a
connection between MLLM-jailbreaks and LLM-jailbreaks. As a result, we
introduce a construction-based method to harness our approach for
LLM-jailbreaks, demonstrating greater efficiency than current state-of-the-art
methods. The code is available here. \textbf{Warning: some content generated by
language models may be offensive to some readers.}
- Abstract(参考訳): 本稿では,マルチモーダルな大規模言語モデル (MLLM) に対するジェイルブレイク攻撃に着目し,有害なユーザクエリに対する不適切な応答を生成するためにMLLMを誘導する。
最大可能性に基づくアルゴリズムが提案され、複数の未確認プロンプトや画像(すなわち、データユニバーサル特性)にわたるMLLMに対するジェイルブレイクを可能にする 'emph{image Jailbreaking Prompt} (imgJP) を見つける。
生成したimgJPは,MiniGPT-v2,LLaVA,InstructBLIP,mPLUG-Owl2など,さまざまなモデルにブラックボックス方式で移動可能である。
さらに,MLLM-jailbreakとLM-jailbreakの関連を明らかにする。
その結果,LLM-jailbreakに対する我々のアプローチを利用する構築法を導入し,現在の最先端手法よりも高い効率性を示した。
コードはここで入手できる。
textbf{Warning: 言語モデルによって生成されたコンテンツは、一部の読者にとって攻撃的かもしれない。
}
関連論文リスト
- IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Efficient LLM-Jailbreaking by Introducing Visual Modality [28.925716670778076]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃に焦点を当てた。
我々のアプローチは、ターゲットのLLMに視覚モジュールを組み込むことで、MLLM(Multimodal large language model)を構築することから始まる。
我々は, EmbJS をテキスト空間に変換し, ターゲット LLM のジェイルブレイクを容易にする。
論文 参考訳(メタデータ) (2024-05-30T12:50:32Z) - JailBreakV: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks [24.69275959735538]
本稿では,大規模言語モデルのジェイルブレイクを成功させる手法が,MLLMのジェイルブレークに等しく有効かどうかを検討する。
MLLM への LLM ジェイルブレイク手法の転送性を評価するための先駆的なベンチマークである JailBreakV-28K を紹介する。
LLMの高度なジェイルブレイク攻撃と、最近のMLLMのジェイルブレイク攻撃によるイメージベースのジェイルブレイク入力により、20000のテキストベースのジェイルブレイクプロンプトを生成します。
論文 参考訳(メタデータ) (2024-04-03T19:23:18Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。