論文の概要: T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2505.06679v2
- Date: Tue, 17 Jun 2025 07:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.096653
- Title: T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks
- Title(参考訳): T2V-OptJail: テキスト対ビデオのジェイルブレイク攻撃に対する離散的プロンプト最適化
- Authors: Jiayang Liu, Siyuan Liang, Shiqian Zhao, Rongcheng Tu, Wenbo Zhou, Aishan Liu, Dacheng Tao, Siew Kei Lam,
- Abstract要約: 我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
- 参考スコア(独自算出の注目度): 67.91652526657599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, fueled by the rapid advancement of diffusion models, text-to-video (T2V) generation models have achieved remarkable progress, with notable examples including Pika, Luma, Kling, and Open-Sora. Although these models exhibit impressive generative capabilities, they also expose significant security risks due to their vulnerability to jailbreak attacks, where the models are manipulated to produce unsafe content such as pornography, violence, or discrimination. Existing works such as T2VSafetyBench provide preliminary benchmarks for safety evaluation, but lack systematic methods for thoroughly exploring model vulnerabilities. To address this gap, we are the first to formalize the T2V jailbreak attack as a discrete optimization problem and propose a joint objective-based optimization framework, called T2V-OptJail. This framework consists of two key optimization goals: bypassing the built-in safety filtering mechanisms to increase the attack success rate, preserving semantic consistency between the adversarial prompt and the unsafe input prompt, as well as between the generated video and the unsafe input prompt, to enhance content controllability. In addition, we introduce an iterative optimization strategy guided by prompt variants, where multiple semantically equivalent candidates are generated in each round, and their scores are aggregated to robustly guide the search toward optimal adversarial prompts. We conduct large-scale experiments on several T2V models, covering both open-source models and real commercial closed-source models. The experimental results show that the proposed method improves 11.4% and 10.0% over the existing state-of-the-art method in terms of attack success rate assessed by GPT-4, attack success rate assessed by human accessors, respectively, verifying the significant advantages of the method in terms of attack effectiveness and content control.
- Abstract(参考訳): 近年,拡散モデルの急速な進歩により,Pika,Luma,Kling,Open-Soraなど,テキスト・ツー・ビデオ(T2V)生成モデルが顕著な進歩を遂げている。
これらのモデルには印象的な生成能力があるが、ジェイルブレイク攻撃の脆弱性のために重大なセキュリティリスクも浮き彫りにしており、ポルノ、暴力、差別などの安全でないコンテンツを生成するためにモデルが操作されている。
T2VSafetyBenchのような既存の作業は、安全性評価のための予備的なベンチマークを提供するが、モデルの脆弱性を徹底的に調査するための体系的な方法が欠如している。
このギャップに対処するため、我々はT2Vjailbreak攻撃を個別の最適化問題として形式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
このフレームワークは、2つの主要な最適化目標で構成されている: 攻撃成功率を高めるためにビルトインの安全フィルタリング機構をバイパスし、敵のプロンプトとアンセーフなインプットプロンプト間のセマンティック一貫性を保ち、生成したビデオとアンセーフなインプットプロンプトの間のセマンティック一貫性を保ち、コンテンツ制御性を高める。
さらに,各ラウンドで複数の意味論的等価候補が生成され,そのスコアが集約され,探索を最適な対角的プロンプトに向けて堅牢に導く,プロンプト変種によって導かれる反復最適化戦略を導入する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は, GPT-4による攻撃成功率, アクセサによる攻撃成功率, 攻撃効率およびコンテンツ制御の観点から, 既存手法よりも11.4%, 10.0%向上することを示した。
関連論文リスト
- T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - HTS-Attack: Heuristic Token Search for Jailbreaking Text-to-Image Models [28.28898114141277]
テキスト・トゥ・イメージ(T2I)モデルは画像生成と編集において顕著な成功を収めた。
これらのモデルには、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する場合に、多くの潜在的な問題がある。
本稿では,トークン探索攻撃手法であるHTS-Attackを提案する。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。