論文の概要: Jailbreaking on Text-to-Video Models via Scene Splitting Strategy
- arxiv url: http://arxiv.org/abs/2509.22292v1
- Date: Fri, 26 Sep 2025 12:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.433362
- Title: Jailbreaking on Text-to-Video Models via Scene Splitting Strategy
- Title(参考訳): シーン分割戦略によるテキスト・ビデオモデルの脱獄
- Authors: Wonjun Lee, Haon Park, Doehyeon Lee, Bumsub Ham, Suhyun Kim,
- Abstract要約: SceneSplitは、有害な物語を複数のシーンに断片化し、それぞれが個々に良心する新しいブラックボックスジェイルブレイク手法である。
以上の結果から,Luma Ray2は77.2%,Haluoは84.1%,Veo2は78.2%であり,既存のベースラインを大きく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 25.29113278603722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Along with the rapid advancement of numerous Text-to-Video (T2V) models, growing concerns have emerged regarding their safety risks. While recent studies have explored vulnerabilities in models like LLMs, VLMs, and Text-to-Image (T2I) models through jailbreak attacks, T2V models remain largely unexplored, leaving a significant safety gap. To address this gap, we introduce SceneSplit, a novel black-box jailbreak method that works by fragmenting a harmful narrative into multiple scenes, each individually benign. This approach manipulates the generative output space, the abstract set of all potential video outputs for a given prompt, using the combination of scenes as a powerful constraint to guide the final outcome. While each scene individually corresponds to a wide and safe space where most outcomes are benign, their sequential combination collectively restricts this space, narrowing it to an unsafe region and significantly increasing the likelihood of generating a harmful video. This core mechanism is further enhanced through iterative scene manipulation, which bypasses the safety filter within this constrained unsafe region. Additionally, a strategy library that reuses successful attack patterns further improves the attack's overall effectiveness and robustness. To validate our method, we evaluate SceneSplit across 11 safety categories on T2V models. Our results show that it achieves a high average Attack Success Rate (ASR) of 77.2% on Luma Ray2, 84.1% on Hailuo, and 78.2% on Veo2, significantly outperforming the existing baseline. Through this work, we demonstrate that current T2V safety mechanisms are vulnerable to attacks that exploit narrative structure, providing new insights for understanding and improving the safety of T2V models.
- Abstract(参考訳): 多数のテキスト・ツー・ビデオ(T2V)モデルの急速な進歩とともに、その安全性に関する懸念が高まっている。
LLM、VLM、Text-to-Image(T2I)モデルなどのモデルでは、ジェイルブレイク攻撃によって脆弱性が調査されているが、T2Vモデルは未調査のままであり、重大な安全性のギャップを残している。
このギャップに対処するために、私たちはSceneSplitを紹介します。これは、有害な物語を複数のシーンに断片化し、それぞれが個々に良心する、新しいブラックボックスジェイルブレイク手法です。
このアプローチは、シーンの組み合わせを強力な制約として使用し、最終的な結果を導くことによって、任意のプロンプトに対するすべての潜在的なビデオ出力の抽象的な集合である生成出力空間を操作する。
各シーンは、ほとんどの結果が良性である広範囲で安全な空間に対応しているが、それらの連続的な組み合わせは、この空間をまとめて制限し、それを安全でない領域に絞り込み、有害なビデオを生成する可能性を大幅に増大させる。
このコアメカニズムは、この制約された安全領域内の安全フィルタをバイパスする反復的なシーン操作によってさらに強化される。
さらに、成功した攻撃パターンを再利用する戦略ライブラリは、攻撃の全体的な有効性と堅牢性をさらに改善する。
提案手法を検証するため,T2Vモデル上での11の安全カテゴリを対象としたSceneSplitの評価を行った。
以上の結果から,Luma Ray2は77.2%,Haluoは84.1%,Veo2は78.2%であり,既存のベースラインを大きく上回っていることがわかった。
本研究では,現在のT2Vの安全性メカニズムが,物語構造を利用した攻撃に対して脆弱であることを示し,T2Vモデルの安全性の理解と改善のための新たな洞察を提供する。
関連論文リスト
- GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models [26.838410830637304]
VLM(Vision-Language Models)は優れた性能を示すが、強力な視覚エンコーダの統合により攻撃面が大幅に拡張されている。
安全境界探索と安全境界交差という2つの段階からなる新しい遅延宇宙脱獄フレームワークであるJailBoundを提案する。
以上の結果から,JailBoundは平均94.32%のホワイトボックス,67.28%のブラックボックス攻撃を達成し,SOTA法より6.17%,21.13%高い結果を得た。
論文 参考訳(メタデータ) (2025-05-26T07:23:00Z) - From Evaluation to Defense: Advancing Safety in Video Large Language Models [33.10355085086974]
textbfVideoSafetyBench (VSB-77k)は,ビデオLLMの安全性に関する大規模かつ文化的に多様なベンチマークである。
ビデオモダリティの統合は安全性を平均42.3%低下させ、マルチモーダル攻撃のシステム的リスクを露呈する。
我々は,2つのイノベーションを通じて,前例のない安全性向上を実現する2段階フレームワークである textbfVideoSafety-R1 を提案する。
論文 参考訳(メタデータ) (2025-05-22T13:16:53Z) - Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs [51.90597846977058]
Video-SafetyBenchは、ビデオテキスト攻撃下でのLVLMの安全性を評価するために設計された最初のベンチマークである。
ビデオテキストのペアは2,264で、48のきめ細かいアンセーフなカテゴリにまたがっている。
安全性評価のためのセマンティックなビデオを生成するために,ビデオ意味論を主題画像とモーションテキストに分解する制御可能なパイプラインを設計する。
論文 参考訳(メタデータ) (2025-05-17T05:06:38Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。