論文の概要: VEIL: Jailbreaking Text-to-Video Models via Visual Exploitation from Implicit Language
- arxiv url: http://arxiv.org/abs/2511.13127v1
- Date: Mon, 17 Nov 2025 08:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.007608
- Title: VEIL: Jailbreaking Text-to-Video Models via Visual Exploitation from Implicit Language
- Title(参考訳): VEIL:暗黙の言語による視覚的爆発によるテキスト・ビデオモデルの脱獄
- Authors: Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu,
- Abstract要約: テキスト・ツー・ビデオ(T2V)モデルに対する以前の攻撃は、通常、明らかに安全でないプロンプトに敵の摂動を追加する。
我々は、リッチで暗黙的な手がかりを含む良心的なプロンプトがT2Vモデルを誘導し、セマンティックなアンセーフなビデオを生成することを示した。
本稿では,モジュール型プロンプト設計により,T2Vモデルの相互関連パターンを活用するジェイルブレイクフレームワークVEILを提案する。
- 参考スコア(独自算出の注目度): 25.38940067963429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreak attacks can circumvent model safety guardrails and reveal critical blind spots. Prior attacks on text-to-video (T2V) models typically add adversarial perturbations to obviously unsafe prompts, which are often easy to detect and defend. In contrast, we show that benign-looking prompts containing rich, implicit cues can induce T2V models to generate semantically unsafe videos that both violate policy and preserve the original (blocked) intent. To realize this, we propose VEIL, a jailbreak framework that leverages T2V models' cross-modal associative patterns via a modular prompt design. Specifically, our prompts combine three components: neutral scene anchors, which provide the surface-level scene description extracted from the blocked intent to maintain plausibility; latent auditory triggers, textual descriptions of innocuous-sounding audio events (e.g., creaking, muffled noises) that exploit learned audio-visual co-occurrence priors to bias the model toward particular unsafe visual concepts; and stylistic modulators, cinematic directives (e.g., camera framing, atmosphere) that amplify and stabilize the latent trigger's effect. We formalize attack generation as a constrained optimization over the above modular prompt space and solve it with a guided search procedure that balances stealth and effectiveness. Extensive experiments over 7 T2V models demonstrate the efficacy of our attack, achieving a 23 percent improvement in average attack success rate in commercial models.
- Abstract(参考訳): 脱獄攻撃は、モデルガードレールを回避し、重要な盲点を明らかにする。
テキスト・ツー・ビデオ(T2V)モデルに対する以前の攻撃は、通常、明らかに安全でないプロンプトに敵の摂動を追加する。
対照的に、豊かで暗黙的な手がかりを含む良心的なプロンプトは、ポリシーに違反し、元の(ブロックされた)意図を保ったセマンティックなアンセーフなビデオを生成するために、T2Vモデルを誘導することができる。
これを実現するために,モジュール型プロンプト設計によりT2Vモデルの相互関連パターンを活用するジェイルブレイクフレームワークVEILを提案する。
具体的には, 可視性を維持するためにブロックされた意図から抽出される表面レベルのシーン記述を提供するニュートラルシーンアンカー, 学習された音声-視覚的共起を生かした無害な音声イベント(例えば, クレーキング, マフレードノイズ)のテキスト記述と, 遅延トリガーの効果を増幅し安定化するスタイリスティック・モジュレータ, 撮影ディレクティブ(例えば, カメラフレーミング, 雰囲気)の3つの要素を組み合わせる。
上述のモジュラープロンプト空間上の制約付き最適化として攻撃生成を形式化し、ステルスと有効性のバランスをとるガイド付き探索手順で解決する。
7つのT2Vモデルに対する大規模な実験は、我々の攻撃の有効性を示し、商業モデルにおける平均攻撃成功率を23%改善した。
関連論文リスト
- Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio [63.18443674004945]
この研究は、TSシステムを利用して有害なコンテンツを含む音声を生成する、コンテンツ中心の脅威を探究する。
HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
論文 参考訳(メタデータ) (2025-11-14T03:00:04Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation [37.055665794706336]
テキスト・ツー・ビデオ(T2V)生成モデルは急速に進歩し、エンターテイメント、教育、マーケティングといった分野に広く応用されている。
我々は、T2V生成タスクにおいて、生成されたビデオはテキストプロンプトに明示的に指定されていないかなりの冗長な情報を含むことが多いことを観察する。
我々は、T2V生成に適した最初のバックドアアタックフレームワークであるBadVideoを紹介した。
論文 参考訳(メタデータ) (2025-04-23T17:34:48Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - HTS-Attack: Heuristic Token Search for Jailbreaking Text-to-Image Models [28.28898114141277]
テキスト・トゥ・イメージ(T2I)モデルは画像生成と編集において顕著な成功を収めた。
これらのモデルには、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する場合に、多くの潜在的な問題がある。
本稿では,トークン探索攻撃手法であるHTS-Attackを提案する。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。