論文の概要: Towards Robust Multimodal Large Language Models Against Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2502.00653v1
- Date: Sun, 02 Feb 2025 03:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:54.064584
- Title: Towards Robust Multimodal Large Language Models Against Jailbreak Attacks
- Title(参考訳): ジェイルブレイク攻撃に対するロバストなマルチモーダル大言語モデルに向けて
- Authors: Ziyi Yin, Yuanpu Cao, Han Liu, Ting Wang, Jinghui Chen, Fenhlong Ma,
- Abstract要約: 本稿では,敵対的雑音を発生させる攻撃ステップとモデル更新ステップとを交互に行うSafeMLLMを紹介する。
攻撃ステップでは、SafeMLLMは新たに提案されたコントラスト埋め込み攻撃(CoE-Attack)を通じて敵の摂動を発生させる。
我々は,SafeMLLMを6つのMLLMと6つのジェイルブレイク法で比較した。
- 参考スコア(独自算出の注目度): 24.491648943977605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multimodal large language models (MLLMs) have achieved remarkable success in recent advancements, their susceptibility to jailbreak attacks has come to light. In such attacks, adversaries exploit carefully crafted prompts to coerce models into generating harmful or undesirable content. Existing defense mechanisms often rely on external inference steps or safety alignment training, both of which are less effective and impractical when facing sophisticated adversarial perturbations in white-box scenarios. To address these challenges and bolster MLLM robustness, we introduce SafeMLLM by adopting an adversarial training framework that alternates between an attack step for generating adversarial noise and a model updating step. At the attack step, SafeMLLM generates adversarial perturbations through a newly proposed contrastive embedding attack (CoE-Attack), which optimizes token embeddings under a contrastive objective. SafeMLLM then updates model parameters to neutralize the perturbation effects while preserving model utility on benign inputs. We evaluate SafeMLLM across six MLLMs and six jailbreak methods spanning multiple modalities. Experimental results show that SafeMLLM effectively defends against diverse attacks, maintaining robust performance and utilities.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は近年の進歩で顕著な成功を収めてきたが、ジェイルブレイク攻撃に対する感受性は明らかになってきた。
このような攻撃では、敵は慎重に作り上げられたプロンプトを利用してモデルを強要し、有害または望ましくないコンテンツを生成する。
既存の防御機構は、しばしば外部の推論ステップや安全アライメントトレーニングに依存しており、どちらもホワイトボックスのシナリオで洗練された敵の摂動に直面している場合、効果が低く、実用的ではない。
これらの課題に対処し、MLLMの堅牢性を高めるために、敵ノイズを発生させる攻撃ステップとモデル更新ステップとを交互に交互に行う対向訓練フレームワークを採用することにより、SafeMLLMを導入する。
攻撃ステップでは、SafeMLLMは、新たに提案されたコントラスト埋め込み攻撃(CoE-Attack)により、コントラスト目的のトークン埋め込みを最適化することで、対向的摂動を生成する。
SafeMLLMはモデルパラメータを更新して摂動効果を中和し、ベニグインプットのモデルユーティリティを保存する。
我々は,SafeMLLMを6つのMLLMと6つのジェイルブレイク法で比較した。
実験の結果,SafeMLLMは多様な攻撃に対して効果的に防御し,堅牢な性能とユーティリティを維持していることがわかった。
関連論文リスト
- MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Adversarial Training for Multimodal Large Language Models against Jailbreak Attacks [17.75247947379804]
MLLM訓練期間中のジェイルブレイク攻撃に対する防御を目的とした,最初の対人訓練パラダイムを提示する。
エンド・ツー・エンドのATフレームワークであるProEAT(Projection Layer Against Adversarial Training)を紹介する。
ProEATは最先端の防御性能を達成し、テキストと画像のモダリティの平均マージン+34%で既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-03-05T14:13:35Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Heuristic-Induced Multimodal Risk Distribution Jailbreak Attack for Multimodal Large Language Models [3.452274739430025]
本研究では,HIMRDと呼ばれる2つの要素からなるマルチモーダルジェイルブレイク攻撃手法を提案する。
理解促進プロンプトは、MLLMが悪意のあるプロンプトと誘導プロンプトを再構築するのに役立ち、肯定的な出力の可能性を高める。
このアプローチはMLLMの脆弱性を効果的に発見し、人気の高い7つのオープンソースMLLMの平均攻撃成功率は90%、人気の高い3つのオープンソースMLLMの平均攻撃成功率は約68%に達する。
論文 参考訳(メタデータ) (2024-12-08T13:20:45Z) - $\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models [11.02754617539271]
我々は,MLLMのジェイルブレイク攻撃と防御技術を評価するための統合パイプラインであるtextitMMJ-Benchを紹介する。
我々は,SoTA MLLMに対する様々な攻撃方法の有効性を評価し,防御機構が防御効果とモデルの有用性に与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-16T00:18:23Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。