論文の概要: Utilizing Jailbreak Probability to Attack and Safeguard Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2503.06989v1
- Date: Mon, 10 Mar 2025 07:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:15.618197
- Title: Utilizing Jailbreak Probability to Attack and Safeguard Multimodal LLMs
- Title(参考訳): 脱獄確率を利用したマルチモーダルLLMの攻撃・保護
- Authors: Wenzhuo Xu, Zhipeng Wei, Xiongtao Sun, Deyue Zhang, Dongdong Yang, Quanchen Zou, Xiangzheng Zhang,
- Abstract要約: 入力のジェイルブレイクポテンシャルを定量化するためにジェイルブレイク確率を導入し、この入力によってMLLMが悪意ある応答を発生させる可能性を示す。
具体的には,Jailbreak-Probability-based Attack (JPA)を提案する。
また,攻撃対策として,Jailbreak-Probability-based FinetuningJPFとJailbreak-Probability-based Defensive Noiseを提案する。
- 参考スコア(独自算出の注目度): 3.6660959979850487
- License:
- Abstract: Recently, Multimodal Large Language Models (MLLMs) have demonstrated their superior ability in understanding multimodal contents. However, they remain vulnerable to jailbreak attacks, which exploit weaknesses in their safety alignment to generate harmful responses. Previous studies categorize jailbreaks as successful or failed based on whether responses contain malicious content. However, given the stochastic nature of MLLM responses, this binary classification of an input's ability to jailbreak MLLMs is inappropriate. Derived from this viewpoint, we introduce jailbreak probability to quantify the jailbreak potential of an input, which represents the likelihood that MLLMs generated a malicious response when prompted with this input. We approximate this probability through multiple queries to MLLMs. After modeling the relationship between input hidden states and their corresponding jailbreak probability using Jailbreak Probability Prediction Network (JPPN), we use continuous jailbreak probability for optimization. Specifically, we propose Jailbreak-Probability-based Attack (JPA) that optimizes adversarial perturbations on inputs to maximize jailbreak probability. To counteract attacks, we also propose two defensive methods: Jailbreak-Probability-based Finetuning (JPF) and Jailbreak-Probability-based Defensive Noise (JPDN), which minimizes jailbreak probability in the MLLM parameters and input space, respectively. Extensive experiments show that (1) JPA yields improvements (up to 28.38\%) under both white and black box settings compared to previous methods with small perturbation bounds and few iterations. (2) JPF and JPDN significantly reduce jailbreaks by at most over 60\%. Both of the above results demonstrate the significance of introducing jailbreak probability to make nuanced distinctions among input jailbreak abilities.
- Abstract(参考訳): 近年,Multimodal Large Language Models (MLLM) は,マルチモーダルコンテンツを理解する上で優れた能力を示している。
しかし、安全アライメントの弱点を利用して有害な反応を引き起こすジェイルブレイク攻撃には弱いままである。
以前の研究では、反応が悪意のあるコンテンツを含むかどうかに基づいて、ジェイルブレイクを成功または失敗と分類していた。
しかし、MLLM応答の確率的性質を考えると、入力がMLLMをジェイルブレイクする能力のバイナリ分類は不適切である。
この観点から、我々は、入力のジェイルブレイクポテンシャルを定量化するためにジェイルブレイク確率を導入し、この入力によってMLLMが悪意ある応答を発生させる可能性を示している。
MLLMに対する複数のクエリにより、この確率を近似する。
Jailbreak Probability Prediction Network (JPPN) を用いて, 入力隠れ状態と対応するジェイルブレイク確率の関係をモデル化した後, 連続ジェイルブレイク確率を最適化に利用する。
具体的には,Jailbreak-Probability-based Attack (JPA)を提案する。
また,攻撃対策として,Jailbreak-Probability-based Finetuning (JPF) と Jailbreak-Probability-based Defensive Noise (JPDN) の2つの防御手法を提案する。
広汎な実験により、(1) JPAは、小さな摂動境界と少数の繰り返しを持つ従来の方法と比較して、白と黒のボックス設定の両方で改善(最大28.38\%)することが示された。
2)JPFとJPDNは脱獄率を60%以上低下させた。
以上の結果から,入力されたジェイルブレイク能力のニュアンスを区別するために,ジェイルブレイク確率を導入することの重要性が示された。
関連論文リスト
- Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。
LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-16T11:43:39Z) - JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation [22.75124155879712]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いままである。
本稿では,JBShield-DとJBShield-Mの2つの主要コンポーネントからなる総合的ジェイルブレイク防御フレームワークJBShieldを提案する。
論文 参考訳(メタデータ) (2025-02-11T13:50:50Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、MLLMは脱獄攻撃に弱いままである。
我々は、安全な報酬モデルを利用してジェイルブレイク攻撃を防御する推論時防衛フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts
Against Open-source LLMs [30.8029926520819]
大規模言語モデル(LLM)は入力シーケンスに基づいてテキストを生成するが、ジェイルブレイク攻撃には弱い。
ジェイルブレイクプロンプトは、クエリに使用する元の質問よりも意味的に多様である。
セマンティック・ミラー・ジェイルブレイク(SMJ)アプローチを導入し,従来の質問と意味的に類似したジェイルブレイクプロンプトを生成することでLCMをバイパスする手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T15:13:50Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - Tree of Attacks: Jailbreaking Black-Box LLMs Automatically [34.36053833900958]
本稿では,ジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。
TAPは、最先端のLDMを80%以上にわたってジェイルブレイクするプロンプトを生成する。
TAPはまた、LlamaGuardのような最先端のガードレールによって保護されたLLMをジェイルブレイクすることができる。
論文 参考訳(メタデータ) (2023-12-04T18:49:23Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。