論文の概要: Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak Prompts
- arxiv url: http://arxiv.org/abs/2407.15050v1
- Date: Sun, 21 Jul 2024 04:37:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 19:28:49.258621
- Title: Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak Prompts
- Title(参考訳): Arondight: 自動生成されたマルチモーダルジェイルブレイクプロンプトで大規模ビジョン言語モデルと組む
- Authors: Yi Liu, Chengjun Cai, Xiaoli Zhang, Xingliang Yuan, Cong Wang,
- Abstract要約: 大規模視覚言語モデル(VLM)は、大規模言語モデル(LLM)の知覚能力を拡張し、拡張する
これらの進歩は、特に有害なコンテンツの生成に関して、重要なセキュリティと倫理上の懸念を引き起こす。
VLMに特化した標準化されたレッドチームフレームワークであるArondightを紹介します。
- 参考スコア(独自算出の注目度): 25.661444231400772
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Vision Language Models (VLMs) extend and enhance the perceptual abilities of Large Language Models (LLMs). Despite offering new possibilities for LLM applications, these advancements raise significant security and ethical concerns, particularly regarding the generation of harmful content. While LLMs have undergone extensive security evaluations with the aid of red teaming frameworks, VLMs currently lack a well-developed one. To fill this gap, we introduce Arondight, a standardized red team framework tailored specifically for VLMs. Arondight is dedicated to resolving issues related to the absence of visual modality and inadequate diversity encountered when transitioning existing red teaming methodologies from LLMs to VLMs. Our framework features an automated multi-modal jailbreak attack, wherein visual jailbreak prompts are produced by a red team VLM, and textual prompts are generated by a red team LLM guided by a reinforcement learning agent. To enhance the comprehensiveness of VLM security evaluation, we integrate entropy bonuses and novelty reward metrics. These elements incentivize the RL agent to guide the red team LLM in creating a wider array of diverse and previously unseen test cases. Our evaluation of ten cutting-edge VLMs exposes significant security vulnerabilities, particularly in generating toxic images and aligning multi-modal prompts. In particular, our Arondight achieves an average attack success rate of 84.5\% on GPT-4 in all fourteen prohibited scenarios defined by OpenAI in terms of generating toxic text. For a clearer comparison, we also categorize existing VLMs based on their safety levels and provide corresponding reinforcement recommendations. Our multimodal prompt dataset and red team code will be released after ethics committee approval. CONTENT WARNING: THIS PAPER CONTAINS HARMFUL MODEL RESPONSES.
- Abstract(参考訳): Large Vision Language Models (VLM) は、Large Language Models (LLM) の知覚能力を拡張し、拡張する。
LLMアプリケーションに新たな可能性を提供するが、これらの進歩は、特に有害なコンテンツの生成に関して、重大なセキュリティと倫理上の懸念を引き起こす。
LLMは、レッドチーム化フレームワークの助けを借りて広範なセキュリティ評価を受けているが、VLMは現在、十分に開発されていない。
このギャップを埋めるために、VLMに特化した標準化されたレッドチームフレームワークであるArondightを紹介します。
Arondight は、既存のレッドチーム方式を LLM から VLM に移行する際に発生する、視覚的モダリティの欠如と多様性の欠如に関連する問題の解決に重点を置いている。
我々のフレームワークは自動マルチモーダル・ジェイルブレイク攻撃を特徴とし、視覚的ジェイルブレイクプロンプトはレッドチームVLMが生成し、テキスト的プロンプトは強化学習エージェントが誘導するレッドチームLLMが生成する。
VLMのセキュリティ評価の包括性を高めるため,エントロピーボーナスと新規報酬指標を統合した。
これらの要素はRLエージェントにインセンティブを与え、レッドチームのLLMをガイドし、多様な、以前は目に見えなかったテストケースのより広範な配列を作成する。
10個の最先端のVLMを評価した結果,特に有毒な画像の生成やマルチモーダルなプロンプトの調整において,重大なセキュリティ上の脆弱性が明らかとなった。
特に,我々のArondightは,有毒テキストの生成に関してOpenAIが定義した14の禁止シナリオすべてにおいて,GPT-4に対する平均攻撃成功率84.5\%を達成する。
より明確な比較のために,既存のVLMを安全性レベルに基づいて分類し,それに対応するレコメンデーションを提案する。
私たちのマルチモーダルプロンプトデータセットとレッドチームのコードは、倫理委員会承認の後にリリースされます。
コンテンツ警告:ハームフルモデル応答を含む紙。
関連論文リスト
- IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent [24.487441771427434]
我々は,コンテキスト認識型ジェイルブレイクプロンプトを生成するためのマルチエージェントLLMシステムRedAgentを提案する。
我々のシステムは、ほとんどのブラックボックスLSMをたった5つのクエリでジェイルブレイクすることができ、既存のレッドチーム方式の効率を2倍に向上させることができる。
すべての問題を報告し、バグ修正のためにOpenAIとMetaと通信しました。
論文 参考訳(メタデータ) (2024-07-23T17:34:36Z) - Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs) [17.670925982912312]
Red-teamingは、大規模言語モデル(LLM)の脆弱性を特定するテクニックである。
本稿では,LLM に対するリピート攻撃に関する詳細な脅威モデルを提案し,知識の体系化(SoK)を提供する。
論文 参考訳(メタデータ) (2024-07-20T17:05:04Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Automated Progressive Red Teaming [38.723546092060666]
手動のレッドチーム化は時間がかかり、コストがかかり、スケーラビリティが欠如しています。
我々は,効果的に学習可能なフレームワークとして,APRT(Automated Progressive Red Teaming)を提案する。
APRTは3つのコアモジュールを活用している: 多様な初期攻撃サンプルを生成するインテンション拡張LDM、敵のプロンプトを製作するインテンションハイディングLDM、そして、迅速な多様性と非効率なサンプルのフィルタリングを管理するEvil Makerである。
論文 参考訳(メタデータ) (2024-07-04T12:14:27Z) - Learning To See But Forgetting To Follow: Visual Instruction Tuning Makes LLMs More Prone To Jailbreak Attacks [41.213482317141356]
画像理解機能を備えた大規模言語モデルの拡張は、高パフォーマンスな視覚言語モデル(VLM)のブームをもたらした。
本稿では,3つの最先端VLMに対するジェイルブレイクの影響を,それぞれ異なるモデリング手法を用いて検討する。
論文 参考訳(メタデータ) (2024-05-07T15:29:48Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。