論文の概要: Benign-to-Toxic Jailbreaking: Inducing Harmful Responses from Harmless Prompts
- arxiv url: http://arxiv.org/abs/2505.21556v1
- Date: Mon, 26 May 2025 17:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.158731
- Title: Benign-to-Toxic Jailbreaking: Inducing Harmful Responses from Harmless Prompts
- Title(参考訳): ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニ
- Authors: Hee-Seon Kim, Minbeom Kim, Wonjun Lee, Kihyun Kim, Changick Kim,
- Abstract要約: 我々は,B2T(Benign-to-Toxic)ジェイルブレイクという新しいパラダイムを提案する。
従来とは違って、良性条件付けから有害な出力を誘導するために、敵画像の最適化を行う。
本手法は, 従来手法よりも優れ, ブラックボックス設定での転送, テキストベースのジェイルブレイクを補完する。
- 参考スコア(独自算出の注目度): 16.04435108299333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimization-based jailbreaks typically adopt the Toxic-Continuation setting in large vision-language models (LVLMs), following the standard next-token prediction objective. In this setting, an adversarial image is optimized to make the model predict the next token of a toxic prompt. However, we find that the Toxic-Continuation paradigm is effective at continuing already-toxic inputs, but struggles to induce safety misalignment when explicit toxic signals are absent. We propose a new paradigm: Benign-to-Toxic (B2T) jailbreak. Unlike prior work, we optimize adversarial images to induce toxic outputs from benign conditioning. Since benign conditioning contains no safety violations, the image alone must break the model's safety mechanisms. Our method outperforms prior approaches, transfers in black-box settings, and complements text-based jailbreaks. These results reveal an underexplored vulnerability in multimodal alignment and introduce a fundamentally new direction for jailbreak approaches.
- Abstract(参考訳): 最適化ベースのジェイルブレイクは、通常、標準的な次世代予測目標に従って、大きな視覚言語モデル(LVLM)のトキシック・コンティニュエーション設定を採用する。
この設定では、有害なプロンプトの次のトークンを予測するために、逆画像が最適化される。
しかし,すでに有害な入力を継続する上ではトキシック・コンティニュエーションのパラダイムが有効であることが判明した。
我々は,B2T(Benign-to-Toxic)ジェイルブレイクという新しいパラダイムを提案する。
従来と異なり, 良性条件から有害な出力を誘導するために, 対向画像の最適化を行う。
良性条件付けには安全違反がないため、画像だけでモデルの安全メカニズムを壊さなければならない。
本手法は, 従来手法よりも優れ, ブラックボックス設定での転送, テキストベースのジェイルブレイクを補完する。
これらの結果から,マルチモーダルアライメントにおける未探索の脆弱性が明らかとなり,ジェイルブレイクアプローチに対する根本的な新たな方向性がもたらされた。
関連論文リスト
- Red Team Diffuser: Exposing Toxic Continuation Vulnerabilities in Vision-Language Models via Reinforcement Learning [27.68654681867373]
相関画像の生成と有害な継続を強化学習を通して協調するレッドコラボリング拡散モデルを提案する。
私たちの重要なイノベーションは、動的クロスモーダル攻撃とステルス対応最適化です。
実験の結果、RTDの有効性が示され、テキストのみのベースラインよりもLLaVA出力の毒性率が10.69%向上した。
論文 参考訳(メタデータ) (2025-03-08T13:51:40Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - PBI-Attack: Prior-Guided Bimodal Interactive Black-Box Jailbreak Attack for Toxicity Maximization [8.819101213981053]
そこで本研究では,前誘導バイモーダル対話型ブラックボックスジェイルブレイク攻撃による毒性評価を提案する。
本手法は,LVLMを用いて有害なコーパスから有害な特徴を抽出することから始める。
双方向の相互モーダル相互作用最適化により,これらの特徴を向上する。
実験によると、PBI-Attackは従来の最先端のジェイルブレイク手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-08T11:14:16Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。