論文の概要: Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?
- arxiv url: http://arxiv.org/abs/2404.03411v1
- Date: Thu, 4 Apr 2024 12:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 14:51:30.514470
- Title: Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?
- Title(参考訳): Red Teaming GPT-4V: GPT-4VはUni/Multi-Modal Jailbreak攻撃に対して安全か?
- Authors: Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu,
- Abstract要約: この研究は、11の異なる安全ポリシーをカバーする1445の有害な質問を含む包括的なジェイルブレイク評価データセットを構築している。
GPT4 と GPT-4V は、オープンソースの LLM や MLLM と比較して、ジェイルブレイク攻撃に対する堅牢性を向上している。
Llama2とQwen-VL-Chatは、他のオープンソースモデルよりも堅牢である。
- 参考スコア(独自算出の注目度): 39.87609532392292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Various jailbreak attacks have been proposed to red-team Large Language Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some methods are not limited to the textual modality and extend the jailbreak attack to Multimodal Large Language Models (MLLMs) by perturbing the visual input. However, the absence of a universal evaluation benchmark complicates the performance reproduction and fair comparison. Besides, there is a lack of comprehensive evaluation of closed-source state-of-the-art (SOTA) models, especially MLLMs, such as GPT-4V. To address these issues, this work first builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions covering 11 different safety policies. Based on this dataset, extensive red-teaming experiments are conducted on 11 different LLMs and MLLMs, including both SOTA proprietary models and open-source models. We then conduct a deep analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate better robustness against jailbreak attacks compared to open-source LLMs and MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other open-source models. (3) The transferability of visual jailbreak methods is relatively limited compared to textual jailbreak methods. The dataset and code can be found here https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .
- Abstract(参考訳): 様々なジェイルブレイク攻撃がレッドチーム大規模言語モデル (LLM) に提案され、LSMの脆弱なセーフガードが明らかにされた。
さらに、いくつかの手法はテキストのモダリティに制限されず、視覚入力を摂動することでジェイルブレイク攻撃をマルチモーダル大言語モデル(MLLM)に拡張する。
しかし、普遍的な評価ベンチマークがないと、性能の再現と公正な比較が複雑になる。
さらに、GPT-4V など、特に MLLM のクローズドソース・ステート・オブ・ザ・アート(SOTA)モデルに対する包括的な評価が欠如している。
これらの問題に対処するため、この研究はまず、11の異なる安全ポリシーをカバーする1445の有害な質問を含む包括的なジェイルブレイク評価データセットを構築した。
このデータセットに基づいて、SOTAプロプライエタリモデルとオープンソースモデルの両方を含む11の異なるLLMとMLLMで、広範なレッドチーム実験が実施されている。
その結果,(1) GPT4 と GPT-4V は,オープンソースの LLM や MLLM と比較して,脱獄攻撃に対するロバスト性が高いことがわかった。
2) Llama2 と Qwen-VL-Chat は他のオープンソースモデルよりも堅牢である。
3) 視覚ジェイルブレイク法は, テキストジェイルブレイク法に比べて比較的限定的である。
データセットとコードは、https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md で見ることができる。
関連論文リスト
- IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Image-to-Text Logic Jailbreak: Your Imagination can Help You Do Anything [4.477597131613079]
本稿では,VLMの論理に基づくフローチャートジェイルブレイク機能を評価するための,新しいデータセットFlow-JDを提案する。
我々は、GPT-4o、GPT-4V、その他の5つのSOTAオープンソースVLMに対して広範囲に評価を行い、ジェイルブレイク率は92.8%である。
我々の研究は、画像からテキストへのジェイルブレイクに関する現在のVLMの重大な脆弱性を明らかにし、これらの発見は、堅牢で効果的な将来の防衛を開発する上での緊急性を強調している。
論文 参考訳(メタデータ) (2024-07-01T16:58:55Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - JailBreakV: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks [24.69275959735538]
本稿では,大規模言語モデルのジェイルブレイクを成功させる手法が,MLLMのジェイルブレークに等しく有効かどうかを検討する。
MLLM への LLM ジェイルブレイク手法の転送性を評価するための先駆的なベンチマークである JailBreakV-28K を紹介する。
LLMの高度なジェイルブレイク攻撃と、最近のMLLMのジェイルブレイク攻撃によるイメージベースのジェイルブレイク入力により、20000のテキストベースのジェイルブレイクプロンプトを生成します。
論文 参考訳(メタデータ) (2024-04-03T19:23:18Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。