論文の概要: Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment
- arxiv url: http://arxiv.org/abs/2411.18688v1
- Date: Wed, 27 Nov 2024 19:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:39.137017
- Title: Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment
- Title(参考訳): 免疫:推論時間アライメントによるマルチモーダルLCMのジェイルブレイク対策の改善
- Authors: Soumya Suvra Ghosal, Souradip Chakraborty, Vaibhav Singh, Tianrui Guan, Mengdi Wang, Ahmad Beirami, Furong Huang, Alvaro Velasquez, Dinesh Manocha, Amrit Singh Bedi,
- Abstract要約: 我々は、脱コード時に安全な報酬モデルを利用してジェイルブレイク攻撃を防御する推論時防御フレームワークImmuneを提案する。
また,Immuneはモデルの本来の機能を維持しつつ,モデル安全性を効果的に向上することを示す。
例えば、LLaVA-1.6に対するテキストベースのジェイルブレイク攻撃に対して、ImmuneはベースMLLMと最先端の防衛戦略と比較して、攻撃の成功率を57.82%と16.78%に下げている。
- 参考スコア(独自算出の注目度): 97.38766396447369
- License:
- Abstract: With the widespread deployment of Multimodal Large Language Models (MLLMs) for visual-reasoning tasks, improving their safety has become crucial. Recent research indicates that despite training-time safety alignment, these models remain vulnerable to jailbreak attacks: carefully crafted image-prompt pairs that compel the model to generate harmful content. In this work, we first highlight a critical safety gap, demonstrating that alignment achieved solely through safety training may be insufficient against jailbreak attacks. To address this vulnerability, we propose Immune, an inference-time defense framework that leverages a safe reward model during decoding to defend against jailbreak attacks. Additionally, we provide a rigorous mathematical characterization of Immune, offering provable guarantees against jailbreaks. Extensive evaluations on diverse jailbreak benchmarks using recent MLLMs reveal that Immune effectively enhances model safety while preserving the model's original capabilities. For instance, against text-based jailbreak attacks on LLaVA-1.6, Immune reduces the attack success rate by 57.82% and 16.78% compared to the base MLLM and state-of-the-art defense strategy, respectively.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の視覚的推論タスクへの普及に伴い,安全性の向上が重要になっている。
最近の研究は、トレーニング時の安全アライメントにもかかわらず、これらのモデルはジェイルブレイク攻撃に弱いままであることを示している。
本研究では,安全訓練のみで達成したアライメントが,脱獄攻撃に対して不十分であることを示す。
この脆弱性に対処するために,デコード中に安全な報酬モデルを利用してジェイルブレイク攻撃を防御する推論時防御フレームワークImmuneを提案する。
さらに,Immuneの厳密な数学的特徴を提供し,ジェイルブレイクに対する証明可能な保証を提供する。
最近のMLLMを用いた多様なジェイルブレイクベンチマークの広範囲な評価は、Immuneがモデルのオリジナルの能力を保ちながらモデルの安全性を効果的に向上することを示している。
例えば、LLaVA-1.6に対するテキストベースのジェイルブレイク攻撃に対して、ImmuneはベースMLLMと最先端の防衛戦略と比較して、攻撃の成功率を57.82%と16.78%に下げている。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - No Free Lunch for Defending Against Prefilling Attack by In-Context Learning [14.156913670221867]
In-Context Learning (ICL) は, 実演中に逆文構造を用いることで, ジェイルブレイク攻撃を効果的に防ぐことができることを示す。
実験結果と分析結果から,ICLによる脱獄前予防のための無料ランチは存在しないと結論した。
論文 参考訳(メタデータ) (2024-12-13T23:58:12Z) - Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文 参考訳(メタデータ) (2024-10-31T01:55:33Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
主要なjailbreak攻撃に対して,メインストリームのGPT-3.5/4モデルを使用することを実証的に検証した。
防衛の堅牢性をさらに向上し、コストを最小化するために、我々は専用のオープンソース防衛モデルをチューニングするためにデータ蒸留アプローチを採用している。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。