論文の概要: Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey
- arxiv url: http://arxiv.org/abs/2411.09259v1
- Date: Thu, 14 Nov 2024 07:51:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:19.572181
- Title: Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey
- Title(参考訳): 脱獄事件とマルチモーダル・ジェネレーティブ・モデルに対する防御--調査
- Authors: Xuannan Liu, Xing Cui, Peipei Li, Zekun Li, Huaibo Huang, Shuhan Xia, Miaoxuan Zhang, Yueying Zou, Ran He,
- Abstract要約: マルチモーダル生成モデルは、ビルトインの安全機構をバイパスし、潜在的に有害なコンテンツの生成を誘導できる、ジェイルブレイク攻撃の影響を受けやすい。
本調査は,マルチモーダル生成モデルにおけるジェイルブレイクと防御についてレビューする。
- 参考スコア(独自算出の注目度): 50.031628043029244
- License:
- Abstract: The rapid evolution of multimodal foundation models has led to significant advancements in cross-modal understanding and generation across diverse modalities, including text, images, audio, and video. However, these models remain susceptible to jailbreak attacks, which can bypass built-in safety mechanisms and induce the production of potentially harmful content. Consequently, understanding the methods of jailbreak attacks and existing defense mechanisms is essential to ensure the safe deployment of multimodal generative models in real-world scenarios, particularly in security-sensitive applications. To provide comprehensive insight into this topic, this survey reviews jailbreak and defense in multimodal generative models. First, given the generalized lifecycle of multimodal jailbreak, we systematically explore attacks and corresponding defense strategies across four levels: input, encoder, generator, and output. Based on this analysis, we present a detailed taxonomy of attack methods, defense mechanisms, and evaluation frameworks specific to multimodal generative models. Additionally, we cover a wide range of input-output configurations, including modalities such as Any-to-Text, Any-to-Vision, and Any-to-Any within generative systems. Finally, we highlight current research challenges and propose potential directions for future research.The open-source repository corresponding to this work can be found at https://github.com/liuxuannan/Awesome-Multimodal-Jailbreak.
- Abstract(参考訳): マルチモーダル基盤モデルの急速な進化は、テキスト、画像、オーディオ、ビデオを含む様々なモダリティの横断的理解と生成に大きな進歩をもたらした。
しかし、これらのモデルは、ビルトインの安全メカニズムをバイパスし、潜在的に有害なコンテンツの生産を誘導できるジェイルブレイク攻撃の影響を受けやすいままである。
したがって、ジェイルブレイク攻撃の方法や既存の防御機構を理解することは、特にセキュリティに敏感なアプリケーションにおいて、現実のシナリオにおいて、マルチモーダル生成モデルの安全なデプロイを保証するために不可欠である。
本調査では, マルチモーダル生成モデルにおけるジェイルブレイクと防御について概観する。
まず,マルチモーダル・ジェイルブレイクの一般的なライフサイクルを考えると,入力,エンコーダ,ジェネレータ,出力の4段階にわたる攻撃と対応する防衛戦略を体系的に探求する。
そこで本研究では,マルチモーダル生成モデルに特有の攻撃方法,防御機構,評価フレームワークの詳細な分類について述べる。
さらに、生成システム内のAny-to-Text、Any-to-Vision、Any-to-Anyなど、幅広い入力出力構成をカバーしています。
この研究に対応するオープンソースリポジトリはhttps://github.com/liuxuannan/Awesome-Multimodal-Jailbreakにある。
関連論文リスト
- Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Jailbreak Attacks and Defenses Against Large Language Models: A Survey [22.392989536664288]
大規模言語モデル(LLM)は、様々なテキスト生成タスクにおいて例外的に機能している。
ジェイルブレイク」は、利用方針や社会に対する悪意ある反応をモデルに誘導する。
本稿では,ジェイルブレイク攻撃と防衛方法の包括的かつ詳細な分類法を提案する。
論文 参考訳(メタデータ) (2024-07-05T06:57:30Z) - JailbreakZoo: Survey, Landscapes, and Horizons in Jailbreaking Large Language and Vision-Language Models [12.338360007906504]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は、セキュリティと倫理的整合性に関する懸念を提起する。
今回の研究は、ジェイルブレイクを7つの異なるタイプに分類し、これらの脆弱性に対処する防衛戦略を精査する。
我々の発見は、次世代の言語モデルのための堅牢でセキュアで信頼性の高い環境を育むために、ジェイルブレイク戦略と防御ソリューションの両方を統合する統一的な視点の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-26T02:20:23Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Against The Achilles' Heel: A Survey on Red Teaming for Generative Models [60.21722603260243]
赤いチーム作りの分野は急速に成長しており、パイプライン全体をカバーする包括的な組織の必要性を強調している。
120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。
我々は,様々な自動レッド・チーム・アプローチを統合するサーチ・フレームワークを開発した。
論文 参考訳(メタデータ) (2024-03-31T09:50:39Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。