論文の概要: Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking
- arxiv url: http://arxiv.org/abs/2603.07028v1
- Date: Sat, 07 Mar 2026 04:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.697385
- Title: Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking
- Title(参考訳): 2つのフレームが重要: テキスト・ビデオ・モデルのジェイルブレイクの一時的攻撃
- Authors: Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang,
- Abstract要約: 最近のテキスト・トゥ・ビデオ(T2V)モデルは、軽量な自然言語プロンプトから複雑なビデオを合成することができる。
以前のジェイルブレイク攻撃は、通常、安全でないプロンプトをコンテントフィルタを避けるパラフレーズに書き換える。
本稿では,断片化プロンプト下でのT2V系の時間軌道埋込み脆弱性を同定する。
- 参考スコア(独自算出の注目度): 3.1471354211996956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-video (T2V) models can synthesize complex videos from lightweight natural language prompts, raising urgent concerns about safety alignment in the event of misuse in the real world. Prior jailbreak attacks typically rewrite unsafe prompts into paraphrases that evade content filters while preserving meaning. Yet, these approaches often still retain explicit sensitive cues in the input text and therefore overlook a more profound, video-specific weakness. In this paper, we identify a temporal trajectory infilling vulnerability of T2V systems under fragmented prompts: when the prompt specifies only sparse boundary conditions (e.g., start and end frames) and leaves the intermediate evolution underspecified, the model may autonomously reconstruct a plausible trajectory that includes harmful intermediate frames, despite the prompt appearing benign to input or output side filtering. Building on this observation, we propose TFM. This fragmented prompting framework converts an originally unsafe request into a temporally sparse two-frame extraction and further reduces overtly sensitive cues via implicit substitution. Extensive evaluations across multiple open-source and commercial T2V models demonstrate that TFM consistently enhances jailbreak effectiveness, achieving up to a 12% increase in attack success rate on commercial systems. Our findings highlight the need for temporally aware safety mechanisms that account for model-driven completion beyond prompt surface form.
- Abstract(参考訳): 最近のテキスト・トゥ・ビデオ(T2V)モデルは、軽量な自然言語プロンプトから複雑なビデオを合成することができ、現実世界で誤用された場合の安全性の整合性に対する緊急の懸念を引き起こす。
以前のjailbreak攻撃は、通常、安全でないプロンプトを、意味を保ちながらコンテンツフィルタを避けるパラフレーズに書き換える。
しかし、これらのアプローチは入力テキストに明示的なセンシティブな手がかりを保持することが多く、したがってより深遠でビデオ特有の弱点を見落としている。
本稿では,断片的なプロンプトの下でT2Vシステムの時間的軌道埋込み脆弱性を同定する:プロンプトがスパース境界条件(例えば,開始フレームと終了フレーム)のみを指定し,中間の進化を未特定のまま残す場合,プロンプトが入力側や出力側のフィルタリングに不慣れであるにもかかわらず,有害な中間フレームを含む可塑性軌道を自律的に再構築することができる。
この観測に基づいて、我々はFMを提案する。
この断片化されたプロンプトフレームワークは、もともと安全でない要求を時間的にスパースな2フレーム抽出に変換し、暗黙の置換によって過度に敏感なキューを減らす。
複数のオープンソースおよび商用T2Vモデルに対する広範囲な評価は、TFMが継続的にジェイルブレイクの有効性を高め、商用システムにおける攻撃成功率を最大12%向上させることを示している。
本研究は, 表面形状以外のモデル駆動完遂を考慮した時間的認識型安全機構の必要性を浮き彫りにした。
関連論文リスト
- VidLeaks: Membership Inference Attacks Against Text-to-Video Models [17.443499650679964]
メンバーシップ推論攻撃(MIA)は、著作権やプライバシー侵害を監査するための原則化されたツールである。
2つの相補的な信号を通してスパース時間記憶を探索する新しいフレームワークVidLeaksを導入する。
我々の研究は、T2Vリークがスパース記憶と時間記憶の両方を通して、かなりのメンバーシップ情報をモデル化した最初の具体的な証拠を提供する。
論文 参考訳(メタデータ) (2026-01-16T11:35:52Z) - T2VAttack: Adversarial Attack on Text-to-Video Diffusion Models [67.13397169618624]
本稿では,テキスト・トゥ・ビデオ(T2V)モデルに対するセマンティックおよび時間的観点からの敵対的攻撃に関する研究であるT2VAttackを紹介する。
提案手法は, 意味的, 時間的クリティカルな単語をプロンプトで識別し, アドレディ検索による同義語に置き換えるT2VAttack-Sと, 最適化された単語を最小の摂動で反復的に挿入するT2VAttack-Iである。
論文 参考訳(メタデータ) (2025-12-30T03:00:46Z) - VEIL: Jailbreaking Text-to-Video Models via Visual Exploitation from Implicit Language [25.38940067963429]
テキスト・ツー・ビデオ(T2V)モデルに対する以前の攻撃は、通常、明らかに安全でないプロンプトに敵の摂動を追加する。
我々は、リッチで暗黙的な手がかりを含む良心的なプロンプトがT2Vモデルを誘導し、セマンティックなアンセーフなビデオを生成することを示した。
本稿では,モジュール型プロンプト設計により,T2Vモデルの相互関連パターンを活用するジェイルブレイクフレームワークVEILを提案する。
論文 参考訳(メタデータ) (2025-11-17T08:31:43Z) - PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。