論文の概要: PAST2HARM: A Simple Adaptive Past Tense Attack for Jailbreaking Multimodal AI
- arxiv url: http://arxiv.org/abs/2605.27545v1
- Date: Tue, 26 May 2026 18:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.399484
- Title: PAST2HARM: A Simple Adaptive Past Tense Attack for Jailbreaking Multimodal AI
- Title(参考訳): PAST2HARM: マルチモーダルAIをジェイルブレイクするためのシンプルなアダプティブパステンス攻撃
- Authors: Snehasis Mukhopadhyay,
- Abstract要約: PAST2HARMは、アートマルチモーダルテキストの状態からイメージモデルへの拒絶トレーニングを回避した適応型ジェイルブレイクフレームワークである。
Gemini Nano Banana Pro, GPT Image 2, SD XLの3モデルでPAST2HARMを評価し, 攻撃成功率は83%, 67%, ブラックボックスで100%, グラデーションフリー設定で達成した。
この攻撃は、露骨な性的内容、政治的偽情報、歴史的否定的物語、憎しみの言葉、自己被害の栄光など、様々な有害なアウトプットが引き起こされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreak attacks on multimodal AI systems remain underexplored, even though unsafe image generation can have more severe consequences than unsafe text and current defenses are relatively immature. We introduce PAST2HARM, a simple yet effective adaptive jailbreak framework that bypasses refusal training in state of the art multimodal text to image models. Building on prior findings that past tense reformulations can evade safeguards, PAST2HARM systematically exploits this vulnerability in multimodal generative AI. We characterize the attack along two dimensions. First, breadth: through temporal deepening, the framework incrementally strengthens historical anchoring and archival cues, eroding refusal boundaries across models with varying alignment strength. Second, depth: via iterative escalation after initial compliance, we probe the upper bound of harmful generation, measuring severity using a scalar severity jailbreak metric evaluated by a language model acting as a judge. We find that mid conversation turns form peak vulnerability windows, where harmfulness increases before plateauing and eventually undergoing semantic inversion. We evaluate PAST2HARM on three models Gemini Nano Banana Pro, GPT Image 2, and SD XL achieving attack success rates of 83 percent, 67 percent, and 100 percent in a black box, gradient free setting. Adversarial prompts also transfer across models, with cross model success rates above 50 percent. The attack elicits diverse harmful outputs, including explicit sexual content, political disinformation, historical denial narratives, hate speech, and self harm glorification. We further release a curated benchmark of prompts, reformulations, and outputs as a resource for red teaming and alignment. Our results expose fundamental brittleness in current safeguards and highlight the need for stronger multimodal safety training.
- Abstract(参考訳): 安全でない画像生成は、安全でないテキストよりも深刻な結果をもたらす可能性があり、現在の防御は比較的未熟である。
PAST2HARMは、最先端のマルチモーダルテキストから画像モデルへの拒絶訓練を回避し、シンプルで効果的な適応型ジェイルブレイクフレームワークである。
PAST2HARMはこの脆弱性を、マルチモーダル生成AIにおいて体系的に活用している。
我々は攻撃を2次元に沿って特徴づける。
第一に、時間的深化を通じて、この枠組みは歴史的アンカーリングと考古学的手がかりを漸進的に強化し、アライメント強度の異なるモデル間での拒絶境界を侵食する。
第2に,初期コンプライアンス後の反復エスカレーションを通じて有害な発生の上限を探索し,審査員として機能する言語モデルにより評価されたスカラーの重大度ジェイルブレイク測定値を用いて重大度を測定する。
中間会話はピークの脆弱性ウィンドウとなり、そこではプレート化前に有害性が増加し、最終的には意味の逆転が進行する。
Gemini Nano Banana Pro, GPT Image 2, SD XLの3モデルでPAST2HARMを評価し, 攻撃成功率は83%, 67%, ブラックボックスで100%, グラデーションフリー設定で達成した。
敵対的なプロンプトはモデル間の転送も行い、モデル間の成功率は50%を超えている。
この攻撃は、露骨な性的内容、政治的偽情報、歴史的否定的物語、憎しみの言葉、自己被害の栄光など、様々な有害なアウトプットが引き起こされる。
我々はさらに、レッドチームとアライメントのためのリソースとして、プロンプト、修正、アウトプットのキュレートされたベンチマークをリリースします。
本研究は, 現行の安全対策における基本的な脆性を明らかにするとともに, より強力なマルチモーダル安全訓練の必要性を明らかにするものである。
関連論文リスト
- RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - Automating Deception: Scalable Multi-Turn LLM Jailbreaks [0.7212939068975618]
フット・イン・ザ・ドア(FITD)のような心理的原理を活用する多ターン会話攻撃は、大規模言語モデル(LLM)に永続的な脅威をもたらす。
本稿では,大規模で心理的なマルチターンジェイルブレイクデータセットを生成するための,新しい自動パイプラインを提案する。
マルチターン(歴史のない)とシングルターン(歴史のない)の条件下で,3つのLLMファミリーから7つのモデルを評価する。
論文 参考訳(メタデータ) (2025-11-24T03:15:11Z) - VEIL: Jailbreaking Text-to-Video Models via Visual Exploitation from Implicit Language [25.38940067963429]
テキスト・ツー・ビデオ(T2V)モデルに対する以前の攻撃は、通常、明らかに安全でないプロンプトに敵の摂動を追加する。
我々は、リッチで暗黙的な手がかりを含む良心的なプロンプトがT2Vモデルを誘導し、セマンティックなアンセーフなビデオを生成することを示した。
本稿では,モジュール型プロンプト設計により,T2Vモデルの相互関連パターンを活用するジェイルブレイクフレームワークVEILを提案する。
論文 参考訳(メタデータ) (2025-11-17T08:31:43Z) - Activation-Guided Local Editing for Jailbreaking Attacks [33.13949817155855]
トークンレベルのジェイルブレイク攻撃は、しばしば不整合または読めない入力を生み出す。
即時攻撃はスケーラビリティに欠けており、手作業や人間の創造性に大きく依存している。
本稿では,これらのアプローチの利点を組み合わせた,簡潔で効果的な2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-01T11:52:24Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - Foot-In-The-Door: A Multi-turn Jailbreak for LLMs [40.958137601841734]
主な課題はjailbreakで、敵はビルトインのセーフガードをバイパスして有害な出力を誘導する。
心理学的フット・イン・ザ・ドアの原則に着想を得て,新しいマルチターンジェイルブレイク法であるFITDを導入する。
提案手法は,中間的なブリッジプロンプトを通じてユーザクエリの悪意ある意図を段階的にエスカレートし,それ自身でモデル応答を調整し,有害な応答を誘導する。
論文 参考訳(メタデータ) (2025-02-27T06:49:16Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。