論文の概要: TrajShield: Trajectory-Level Safety Mediation for Defending Text-to-Video Models Against Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2605.01761v1
- Date: Sun, 03 May 2026 07:49:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.926941
- Title: TrajShield: Trajectory-Level Safety Mediation for Defending Text-to-Video Models Against Jailbreak Attacks
- Title(参考訳): TrajShield: ジェイルブレイク攻撃に対するテキスト・ビデオ・モデル保護のためのトラジェクティブ・レベル・セーフティ・メディエーション
- Authors: Quanchen Zou, Nizhang Li, Wenxin Zhang, Jiaye Lin, Yangchen Zeng, Xiangzheng Zhang, Zonghao Ying,
- Abstract要約: 本稿では,時間的に構造化されたセマンティック空間における因果的介入として,T2Vの安全性を再構築する,トレーニング不要な推論時防衛フレームワークを提案する。
TrajShieldは、明確な安全でないプロンプト、ジェイルブレイク攻撃、時間的に発生したリスクを統一的に処理する。
- 参考スコア(独自算出の注目度): 3.3681515336200403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Video (T2V) models have demonstrated remarkable capability in generating temporally coherent videos from natural language prompts, yet they also risk producing unsafe content such as violence or explicit material. Existing prompt-level defenses are largely inherited from text-to-image safety and operate on the lexical surface of the input, making them vulnerable to jailbreak attacks that disguise harmful intent through rephrasing or adversarial prompting. Moreover, T2V generation introduces a distinctive challenge overlooked by prior work: temporally emergent risk, where a seemingly benign prompt leads to unsafe content through the generator's temporal extrapolation toward narrative coherence. We propose \method{}, a training-free, inference-time defense framework that reformulates T2V safety as a causal intervention in a temporally structured semantic space. TrajShield handles explicit unsafe prompts, jailbreak attacks, and temporally emergent risks in a unified manner by simulating the implied trajectory of a prompt, localizing the causal origin of potential risk, and applying a minimally invasive rewrite that neutralizes the risk while preserving safety-irrelevant semantics. Experiments on T2VSafetyBench across 14 safety categories and multiple T2V backends demonstrate that TrajShield achieves state-of-the-art defenseive performance while maintaining high semantic fidelity, substantially outperforming existing defenses, with an average ASR reduction of 52.44\%.
- Abstract(参考訳): テキスト・トゥ・ビデオ(T2V)モデルは、自然言語のプロンプトから時間的にコヒーレントなビデオを生成する際、顕著な能力を示した。
既存のプロンプトレベルの防御は、テキスト・ツー・イメージの安全性から受け継がれており、入力の語彙面で動作しているため、リフレージングや敵のプロンプトによって有害な意図を偽装するジェイルブレイク攻撃に脆弱である。
さらに、T2V生成は、時間的緊急リスク(英語版)という、物語的コヒーレンス(英語版)に対するジェネレータの時間的外挿を通して、一見良心的なプロンプトが、安全でない内容をもたらすという、以前の研究によって見過ごされる固有の課題をもたらす。
本稿では,時間的に構造化されたセマンティック空間における因果的介入としてT2Vの安全性を再構成する,トレーニング不要な推論時防衛フレームワークである‘method{}’を提案する。
TrajShieldは、プロンプトのインプリート軌道をシミュレートし、潜在的なリスクの因果的起源を局所化し、安全性のないセマンティクスを維持しながらリスクを中和する最小限の侵襲的な書き換えを適用することによって、明確な安全でないプロンプト、ジェイルブレイク攻撃、時間的に発生したリスクを統一的に処理する。
T2VSafetyBenchを14の安全カテゴリと複数のT2Vバックエンドで実験したところ、TrajShieldは高いセマンティック忠実性を保ちながら最先端の防御性能を達成し、既存の防御を実質的に上回っており、平均的なASRの減少率は52.44\%である。
関連論文リスト
- HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models [87.35765363039638]
本研究では,視覚・言語・アクションモデルのセマンティック安全性を評価するためのベンチマークであるHazardArenaを紹介する。
安全シナリオに特化してトレーニングされたVLAモデルは、対応する安全でないシナリオで評価された場合、安全に動作しないことが多い。
本研究では,セマンティック属性や視覚言語判断を用いた行動実行を制約する,トレーニングフリーの安全オプション層を提案する。
論文 参考訳(メタデータ) (2026-04-14T08:32:02Z) - DTVI: Dual-Stage Textual and Visual Intervention for Safe Text-to-Image Generation [10.071877020102557]
テキスト・ツー・イメージ(T2I)拡散モデルは、強力な生成能力を示すが、安全でないコンテンツを生成する可能性には、重大な安全上の懸念が生じる。
我々は,安全なT2I生成のための2段階推論時防衛フレームワークDTVIを提案する。
論文 参考訳(メタデータ) (2026-03-23T14:41:11Z) - Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking [3.1471354211996956]
最近のテキスト・トゥ・ビデオ(T2V)モデルは、軽量な自然言語プロンプトから複雑なビデオを合成することができる。
以前のジェイルブレイク攻撃は、通常、安全でないプロンプトをコンテントフィルタを避けるパラフレーズに書き換える。
本稿では,断片化プロンプト下でのT2V系の時間軌道埋込み脆弱性を同定する。
論文 参考訳(メタデータ) (2026-03-07T04:21:54Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。