論文の概要: Jailbreaking the Text-to-Video Generative Models
- arxiv url: http://arxiv.org/abs/2505.06679v1
- Date: Sat, 10 May 2025 16:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.982258
- Title: Jailbreaking the Text-to-Video Generative Models
- Title(参考訳): テキスト・ビデオ生成モデルのジェイルブレイク
- Authors: Jiayang Liu, Siyuan Liang, Shiqian Zhao, Rongcheng Tu, Wenbo Zhou, Xiaochun Cao, Dacheng Tao, Siew Kei Lam,
- Abstract要約: 本稿では,テキスト・ツー・ビデオモデルに対するテキストファースト最適化に基づくジェイルブレイク攻撃を提案する。
提案手法は3つの主目的を持つ最適化問題として即時生成タスクを定式化する。
われわれは、Open-Sora、Pika、Luma、Klingなど、複数のテキスト・ビデオ・モデルにまたがる広範な実験を行っている。
- 参考スコア(独自算出の注目度): 95.43898677860565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video generative models have achieved significant progress, driven by the rapid advancements in diffusion models, with notable examples including Pika, Luma, Kling, and Sora. Despite their remarkable generation ability, their vulnerability to jailbreak attack, i.e. to generate unsafe content, including pornography, violence, and discrimination, raises serious safety concerns. Existing efforts, such as T2VSafetyBench, have provided valuable benchmarks for evaluating the safety of text-to-video models against unsafe prompts but lack systematic studies for exploiting their vulnerabilities effectively. In this paper, we propose the \textit{first} optimization-based jailbreak attack against text-to-video models, which is specifically designed. Our approach formulates the prompt generation task as an optimization problem with three key objectives: (1) maximizing the semantic similarity between the input and generated prompts, (2) ensuring that the generated prompts can evade the safety filter of the text-to-video model, and (3) maximizing the semantic similarity between the generated videos and the original input prompts. To further enhance the robustness of the generated prompts, we introduce a prompt mutation strategy that creates multiple prompt variants in each iteration, selecting the most effective one based on the averaged score. This strategy not only improves the attack success rate but also boosts the semantic relevance of the generated video. We conduct extensive experiments across multiple text-to-video models, including Open-Sora, Pika, Luma, and Kling. The results demonstrate that our method not only achieves a higher attack success rate compared to baseline methods but also generates videos with greater semantic similarity to the original input prompts.
- Abstract(参考訳): テキストからビデオへの生成モデルは、ピカ、ルマ、クリング、ソラなど、拡散モデルの急速な進歩によって大きな進歩を遂げている。
ジェイルブレイク攻撃に対する脆弱性、すなわちポルノ、暴力、差別を含む安全でないコンテンツを生成できることは、その顕著な生成能力にもかかわらず、深刻な安全上の懸念を提起する。
T2VSafetyBenchのような既存の取り組みは、安全でないプロンプトに対してテキスト・ビデオモデルの安全性を評価する上で貴重なベンチマークを提供しているが、脆弱性を効果的に活用するための体系的な研究は欠如している。
本稿では,テキスト・ツー・ビデオ・モデルに対する<textit{first}最適化に基づくジェイルブレイク攻撃を提案する。
提案手法は,(1)入力と生成されたプロンプト間の意味的類似度を最大化すること,(2)生成したプロンプトがテキスト・ビデオモデルの安全性フィルタを回避できること,(3)生成したビデオと元のインプットプロンプト間の意味的類似度を最大化すること,の3つの主要な目的により,プロンプト生成タスクを最適化問題として定式化する。
生成したプロンプトのロバスト性をさらに高めるため、各反復において複数のプロンプト変種を生成するプロンプト突然変異戦略を導入し、平均値に基づいて最も効果的なプロンプトを選択する。
この戦略は、攻撃の成功率を改善するだけでなく、生成されたビデオの意味的関連性を高める。
われわれは、Open-Sora、Pika、Luma、Klingなど、複数のテキスト・ビデオ・モデルにまたがる広範な実験を行っている。
その結果,本手法は,ベースライン方式よりも高い攻撃成功率を達成するだけでなく,本来の入力プロンプトに類似したセマンティックな映像を生成することがわかった。
関連論文リスト
- T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - HTS-Attack: Heuristic Token Search for Jailbreaking Text-to-Image Models [28.28898114141277]
テキスト・トゥ・イメージ(T2I)モデルは画像生成と編集において顕著な成功を収めた。
これらのモデルには、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する場合に、多くの潜在的な問題がある。
本稿では,トークン探索攻撃手法であるHTS-Attackを提案する。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。