論文の概要: T2VAttack: Adversarial Attack on Text-to-Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.23953v1
- Date: Tue, 30 Dec 2025 03:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.264815
- Title: T2VAttack: Adversarial Attack on Text-to-Video Diffusion Models
- Title(参考訳): T2VAttack:テキストとビデオの拡散モデルに対する逆攻撃
- Authors: Changzhen Li, Yuecong Min, Jie Zhang, Zheng Yuan, Shiguang Shan, Xilin Chen,
- Abstract要約: 本稿では,テキスト・トゥ・ビデオ(T2V)モデルに対するセマンティックおよび時間的観点からの敵対的攻撃に関する研究であるT2VAttackを紹介する。
提案手法は, 意味的, 時間的クリティカルな単語をプロンプトで識別し, アドレディ検索による同義語に置き換えるT2VAttack-Sと, 最適化された単語を最小の摂動で反復的に挿入するT2VAttack-Iである。
- 参考スコア(独自算出の注目度): 67.13397169618624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of Text-to-Video (T2V) diffusion models has driven remarkable advancements in generating high-quality, temporally coherent videos from natural language descriptions. Despite these achievements, their vulnerability to adversarial attacks remains largely unexplored. In this paper, we introduce T2VAttack, a comprehensive study of adversarial attacks on T2V diffusion models from both semantic and temporal perspectives. Considering the inherently dynamic nature of video data, we propose two distinct attack objectives: a semantic objective to evaluate video-text alignment and a temporal objective to assess the temporal dynamics. To achieve an effective and efficient attack process, we propose two adversarial attack methods: (i) T2VAttack-S, which identifies semantically or temporally critical words in prompts and replaces them with synonyms via greedy search, and (ii) T2VAttack-I, which iteratively inserts optimized words with minimal perturbation to the prompt. By combining these objectives and strategies, we conduct a comprehensive evaluation on the adversarial robustness of several state-of-the-art T2V models, including ModelScope, CogVideoX, Open-Sora, and HunyuanVideo. Our experiments reveal that even minor prompt modifications, such as the substitution or insertion of a single word, can cause substantial degradation in semantic fidelity and temporal dynamics, highlighting critical vulnerabilities in current T2V diffusion models.
- Abstract(参考訳): テキスト・トゥ・ビデオ(T2V)拡散モデルの急速な進化は、自然言語の記述から高品質で時間的に整合したビデオを生成する際、顕著な進歩をもたらした。
これらの成果にもかかわらず、敵の攻撃に対するその脆弱性はほとんど解明されていない。
本稿では,T2V拡散モデルに対する敵対的攻撃を,意味的・時間的両面から包括的に研究するT2VAttackを紹介する。
ビデオデータの本質的動的性質を考慮し、ビデオテキストアライメントを評価する意味的目的と、時間的ダイナミクスを評価する時間的目的の2つの異なる攻撃目標を提案する。
効果的かつ効率的な攻撃方法を実現するために,2つの敵攻撃法を提案する。
i) T2VAttack-S : 意味的または時間的クリティカルな単語をプロンプトで識別し、欲求検索による同義語に置き換え、
(ii)T2VAttack-Iは、プロンプトに最小の摂動を持つ最適化された単語を反復的に挿入する。
これらの目的と戦略を組み合わせることで,ModelScope,CogVideoX,Open-Sora,HunyuanVideoなど,最先端T2Vモデルの対角的ロバスト性を総合的に評価する。
実験の結果, 単一単語の置換や挿入などの微妙な変更であっても, 意味的忠実度や時間的ダイナミクスを著しく低下させ, 現行のT2V拡散モデルにおける重大な脆弱性を浮き彫りにすることがわかった。
関連論文リスト
- TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models [36.61440730824693]
テキスト・トゥ・ビデオ(T2V)モデルは高品質で時間的に一貫性のあるダイナミックビデオコンテンツを合成することができる。
静的画像とテキスト生成に焦点を当てた既存の安全性評価手法は、ビデオ生成における複雑な時間的ダイナミクスを捉えるには不十分である。
本稿では,T2Vモデルの動的時間的シークエンシングと関係のある安全性リスクを明らかにするための自動フレームワークTEARを提案する。
論文 参考訳(メタデータ) (2025-11-26T07:58:42Z) - BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation [37.055665794706336]
テキスト・ツー・ビデオ(T2V)生成モデルは急速に進歩し、エンターテイメント、教育、マーケティングといった分野に広く応用されている。
我々は、T2V生成タスクにおいて、生成されたビデオはテキストプロンプトに明示的に指定されていないかなりの冗長な情報を含むことが多いことを観察する。
我々は、T2V生成に適した最初のバックドアアタックフレームワークであるBadVideoを紹介した。
論文 参考訳(メタデータ) (2025-04-23T17:34:48Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis [18.806249040835624]
本稿では,時間的ダイナミクスの制御を改善するために,時間的時間的看護(GTN, Generative Temporal Nursing, GTN)の概念を導入する。
提案手法が既存のオープンソースT2Vモデルよりも長めで視覚的に魅力的なビデオを生成する場合の優位性を実験的に示す。
論文 参考訳(メタデータ) (2024-03-20T10:58:58Z) - Instruct2Attack: Language-Guided Semantic Adversarial Attacks [76.83548867066561]
Instruct2Attack (I2A) は、自由形式の言語命令に従って意味のある摂動を生成する言語誘導セマンティックアタックである。
我々は最先端の潜伏拡散モデルを用いて、逆拡散過程を逆ガイドし、入力画像とテキスト命令に条件付けされた逆潜伏符号を探索する。
I2Aは、強い敵の防御の下でも最先端のディープニューラルネットワークを破ることができることを示す。
論文 参考訳(メタデータ) (2023-11-27T05:35:49Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。