論文の概要: IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves
- arxiv url: http://arxiv.org/abs/2411.00827v3
- Date: Sat, 08 Mar 2025 17:39:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:43:41.186591
- Title: IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves
- Title(参考訳): IDEATOR: テーマを使った大規模ビジョンランゲージモデルのジェイルブレークとベンチマーク
- Authors: Ruofan Wang, Juncheng Li, Yixu Wang, Bo Wang, Xiaosen Wang, Yan Teng, Yingchun Wang, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成した。
- 参考スコア(独自算出の注目度): 64.46372846359694
- License:
- Abstract: As large Vision-Language Models (VLMs) gain prominence, ensuring their safe deployment has become critical. Recent studies have explored VLM robustness against jailbreak attacks-techniques that exploit model vulnerabilities to elicit harmful outputs. However, the limited availability of diverse multimodal data has constrained current approaches to rely heavily on adversarial or manually crafted images derived from harmful text datasets, which often lack effectiveness and diversity across different contexts. In this paper, we propose IDEATOR, a novel jailbreak method that autonomously generates malicious image-text pairs for black-box jailbreak attacks. IDEATOR is grounded in the insight that VLMs themselves could serve as powerful red team models for generating multimodal jailbreak prompts. Specifically, IDEATOR leverages a VLM to create targeted jailbreak texts and pairs them with jailbreak images generated by a state-of-the-art diffusion model. Extensive experiments demonstrate IDEATOR's high effectiveness and transferability, achieving a 94% attack success rate (ASR) in jailbreaking MiniGPT-4 with an average of only 5.34 queries, and high ASRs of 82%, 88%, and 75% when transferred to LLaVA, InstructBLIP, and Chameleon, respectively. Building on IDEATOR's strong transferability and automated process, we introduce the VLBreakBench, a safety benchmark comprising 3,654 multimodal jailbreak samples. Our benchmark results on 11 recently released VLMs reveal significant gaps in safety alignment. For instance, our challenge set achieves ASRs of 46.31% on GPT-4o and 19.65% on Claude-3.5-Sonnet, underscoring the urgent need for stronger defenses.
- Abstract(参考訳): 大きなVision-Language Models (VLM) が普及するにつれて、安全なデプロイメントが重要になっている。
近年の研究では、有害な出力を誘発するモデル脆弱性を利用するジェイルブレイク攻撃技術に対するVLMの堅牢性について検討されている。
しかし、多様なマルチモーダルデータの可用性が制限されているため、現在のアプローチでは、有害なテキストデータセットから派生した敵対的または手作業による画像に大きく依存する傾向にある。
本稿では,ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法IDEATORを提案する。
IDEATORは、VLM自体がマルチモーダルジェイルブレイクプロンプトを生成するための強力なレッドチームモデルとして機能する、という洞察に基づいています。
具体的には、IDEATORはVLMを活用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
大規模な実験では、IDEATORの高効率性と転送性を示し、平均5.34クエリでMiniGPT-4をジェイルブレイクすると94%のアタック成功率(ASR)を達成し、LLaVA、InstructBLIP、Chameleonにそれぞれ82%、88%、75%のASRを転送した。
IDEATORの強い転送性と自動化プロセスに基づいて,3,654個のマルチモーダルジェイルブレイクサンプルからなる安全性ベンチマークであるVLBreakBenchを紹介した。
最近リリースされた11個のVLMのベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、我々の挑戦セットは、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成し、より強力な防衛の必要性を浮き彫りにしている。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Jailbreak Large Vision-Language Models Through Multi-Modal Linkage [14.025750623315561]
我々は、MML攻撃という新しいジェイルブレイク攻撃フレームワークを提案する。暗号からインスピレーションを得たMMLは、テキストと画像のモダリティをまたいだ暗号化復号プロセスを利用して、悪意のある情報の過剰露出を軽減する。
MMLjailbreaks GPT-4o with attack success rate 97.80% on SafeBench, 98.81% on MM-SafeBench, 99.07% on HADES-Dataset。
論文 参考訳(メタデータ) (2024-11-30T13:21:15Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent [24.487441771427434]
我々は,コンテキスト認識型ジェイルブレイクプロンプトを生成するためのマルチエージェントLLMシステムRedAgentを提案する。
我々のシステムは、ほとんどのブラックボックスLSMをたった5つのクエリでジェイルブレイクすることができ、既存のレッドチーム方式の効率を2倍に向上させることができる。
すべての問題を報告し、バグ修正のためにOpenAIとMetaと通信しました。
論文 参考訳(メタデータ) (2024-07-23T17:34:36Z) - Image-to-Text Logic Jailbreak: Your Imagination can Help You Do Anything [4.477597131613079]
本稿では,VLMの論理に基づくフローチャートジェイルブレイク機能を評価するための,新しいデータセットFlow-JDを提案する。
我々は、GPT-4o、GPT-4V、その他の5つのSOTAオープンソースVLMに対して広範囲に評価を行い、ジェイルブレイク率は92.8%である。
我々の研究は、画像からテキストへのジェイルブレイクに関する現在のVLMの重大な脆弱性を明らかにし、これらの発見は、堅牢で効果的な将来の防衛を開発する上での緊急性を強調している。
論文 参考訳(メタデータ) (2024-07-01T16:58:55Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。