論文の概要: JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2404.03027v1
- Date: Wed, 3 Apr 2024 19:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 16:44:51.945867
- Title: JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks
- Title(参考訳): JailBreakV-28K: ジェイルブレイク攻撃に対するマルチモーダル大言語モデルのロバスト性を評価するベンチマーク
- Authors: Weidi Luo, Siyuan Ma, Xiaogeng Liu, Xiaoyu Guo, Chaowei Xiao,
- Abstract要約: 本稿では,大規模言語モデルのジェイルブレイクを成功させる手法が,MLLMのジェイルブレークに等しく有効かどうかを検討する。
MLLM への LLM ジェイルブレイク手法の転送性を評価するための先駆的なベンチマークである JailBreakV-28K を紹介する。
LLMの高度なジェイルブレイク攻撃と、最近のMLLMのジェイルブレイク攻撃によるイメージベースのジェイルブレイク入力により、20000のテキストベースのジェイルブレイクプロンプトを生成します。
- 参考スコア(独自算出の注目度): 24.69275959735538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancements in Multimodal Large Language Models (MLLMs), securing these models against malicious inputs while aligning them with human values has emerged as a critical challenge. In this paper, we investigate an important and unexplored question of whether techniques that successfully jailbreak Large Language Models (LLMs) can be equally effective in jailbreaking MLLMs. To explore this issue, we introduce JailBreakV-28K, a pioneering benchmark designed to assess the transferability of LLM jailbreak techniques to MLLMs, thereby evaluating the robustness of MLLMs against diverse jailbreak attacks. Utilizing a dataset of 2, 000 malicious queries that is also proposed in this paper, we generate 20, 000 text-based jailbreak prompts using advanced jailbreak attacks on LLMs, alongside 8, 000 image-based jailbreak inputs from recent MLLMs jailbreak attacks, our comprehensive dataset includes 28, 000 test cases across a spectrum of adversarial scenarios. Our evaluation of 10 open-source MLLMs reveals a notably high Attack Success Rate (ASR) for attacks transferred from LLMs, highlighting a critical vulnerability in MLLMs that stems from their text-processing capabilities. Our findings underscore the urgent need for future research to address alignment vulnerabilities in MLLMs from both textual and visual inputs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩に伴い、これらのモデルが悪意ある入力に対して安全でありながら、それらを人間の価値と整合させることが重要な課題となっている。
本稿では,Large Language Models (LLM) を成功させる手法が,MLLMのジェイルブレイクに等しく有効であるかどうか,重要かつ未解明の課題について検討する。
そこで本研究では,MLLMのジェイルブレイクテクニックのMLLMへの転送性を評価するための先駆的ベンチマークであるJailBreakV-28Kを紹介し,さまざまなジェイルブレイク攻撃に対するMLLMの堅牢性を評価する。
この論文でも提案されている2,000の悪意のあるクエリのデータセットを利用して、LSMの高度なジェイルブレイク攻撃を使用して、20,000のテキストベースのジェイルブレイクプロンプトを生成し、最近のMLLMのジェイルブレイク攻撃からの8,000の画像ベースのジェイルブレイクインプットに加えて、当社の包括的なデータセットには、さまざまなシナリオを対象とした28,000のテストケースが含まれています。
10個のオープンソースMLLMを評価したところ、LSMから転送された攻撃に対する攻撃成功率(ASR)が顕著に高く、テキスト処理能力に起因したMLLMの重大な脆弱性が明らかとなった。
本研究は,テキスト入力と視覚入力の両方からMLLMのアライメント脆弱性に対処するための,今後の研究の必要性を浮き彫りにするものである。
関連論文リスト
- AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Tastle: Distract Large Language Models for Automatic Jailbreak Attack [9.137714258654842]
大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。
我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。
また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。