論文の概要: SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism
- arxiv url: http://arxiv.org/abs/2507.01513v1
- Date: Wed, 02 Jul 2025 09:22:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.125344
- Title: SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism
- Title(参考訳): SafePTR: Prune-then-Restore機構による多モードLDMにおけるToken-Level Jailbreak防御
- Authors: Beitao Chen, Xinyu Lyu, Lianli Gao, Jingkuan Song, Heng Tao Shen,
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚的推論をサポートするためにLLMを拡張する。
MLLMは、マルチモーダルなジェイルブレイク攻撃や安全なデプロイメントを妨げる可能性がある。
セーフ・プルー・テン・レストア(Safe Prune-then-Restore, SafePTR)は、有害なトークンを脆弱な層で選択的にプルーすると同時に、その後の層で良質な機能を復元する、トレーニング不要の防御フレームワークである。
- 参考スコア(独自算出の注目度): 123.54980913741828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By incorporating visual inputs, Multimodal Large Language Models (MLLMs) extend LLMs to support visual reasoning. However, this integration also introduces new vulnerabilities, making MLLMs susceptible to multimodal jailbreak attacks and hindering their safe deployment.Existing defense methods, including Image-to-Text Translation, Safe Prompting, and Multimodal Safety Tuning, attempt to address this by aligning multimodal inputs with LLMs' built-in safeguards.Yet, they fall short in uncovering root causes of multimodal vulnerabilities, particularly how harmful multimodal tokens trigger jailbreak in MLLMs? Consequently, they remain vulnerable to text-driven multimodal jailbreaks, often exhibiting overdefensive behaviors and imposing heavy training overhead.To bridge this gap, we present an comprehensive analysis of where, how and which harmful multimodal tokens bypass safeguards in MLLMs. Surprisingly, we find that less than 1% tokens in early-middle layers are responsible for inducing unsafe behaviors, highlighting the potential of precisely removing a small subset of harmful tokens, without requiring safety tuning, can still effectively improve safety against jailbreaks. Motivated by this, we propose Safe Prune-then-Restore (SafePTR), an training-free defense framework that selectively prunes harmful tokens at vulnerable layers while restoring benign features at subsequent layers.Without incurring additional computational overhead, SafePTR significantly enhances the safety of MLLMs while preserving efficiency. Extensive evaluations across three MLLMs and five benchmarks demonstrate SafePTR's state-of-the-art performance in mitigating jailbreak risks without compromising utility.
- Abstract(参考訳): 視覚入力を組み込むことで、MLLM(Multimodal Large Language Models)はLLMを拡張して視覚推論をサポートする。
しかし、この統合は新たな脆弱性も導入し、MLLMがマルチモーダルなジェイルブレイク攻撃を受けやすくし、その安全なデプロイを妨げる。既存の防御手法であるImage-to-Text Translation、Safe Prompting、Multimodal Safety Tuningは、マルチモーダルな入力をLLMのビルトインセーフガードと整列させることによってこの問題に対処しようとしている。
その結果、テキスト駆動型マルチモーダル・ジェイルブレイクに弱いままであり、しばしば過度に防御行動を示し、重い訓練のオーバーヘッドを伴い、このギャップを埋めるために、MLLMの安全ガードをバイパスする有害なマルチモーダル・トークンの場所、方法、および場所を包括的に分析する。
意外なことに、安全チューニングを必要とせず、有害なトークンの小さなサブセットを正確に除去する可能性を強調しながら、早期中間層における1%未満のトークンが、安全でない振る舞いを誘導する責任を負っていることがわかりました。
本研究の目的は,セーフプルー・テン・レストア(SafePTR,Safe Prune-then-Restore, セーフプルー・テン・レストア, セーフプルー・レストア, セーフプルー・レストア, SafePTR)で, 有害トークンを脆弱層に選択的にプルーニングし, 付加的な計算オーバーヘッドを伴わず, 効率を保ちながらMLLMの安全性を著しく向上させることである。
3つのMLLMと5つのベンチマークにわたる広範囲な評価は、SafePTRの最先端のパフォーマンスが、実用性を損なうことなくジェイルブレイクリスクを軽減していることを示している。
関連論文リスト
- Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy [31.03584769307822]
安全アライメントを超越した入力のOOD化による新しいジェイルブレイクフレームワークJOODを提案する。
多様なジェイルブレイクシナリオに対する実験では、JOODが最近のプロプライエタリなLDMとMLLMを効果的にジェイルブレイクすることを示した。
論文 参考訳(メタデータ) (2025-03-26T01:25:24Z) - Towards Robust Multimodal Large Language Models Against Jailbreak Attacks [24.491648943977605]
本稿では,敵対的雑音を発生させる攻撃ステップとモデル更新ステップとを交互に行うSafeMLLMを紹介する。
攻撃ステップでは、SafeMLLMは新たに提案されたコントラスト埋め込み攻撃(CoE-Attack)を通じて敵の摂動を発生させる。
我々は,SafeMLLMを6つのMLLMと6つのジェイルブレイク法で比較した。
論文 参考訳(メタデータ) (2025-02-02T03:45:49Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。