論文の概要: RunawayEvil: Jailbreaking the Image-to-Video Generative Models
- arxiv url: http://arxiv.org/abs/2512.06674v1
- Date: Sun, 07 Dec 2025 06:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.462252
- Title: RunawayEvil: Jailbreaking the Image-to-Video Generative Models
- Title(参考訳): RunawayEvil: 映像から映像へ生成するモデルをジェイルブレイクする
- Authors: Songping Wang, Rufan Qian, Yueming Lyu, Qinglong Liu, Linzhuang Zou, Jie Qin, Songhua Liu, Caifeng Shan,
- Abstract要約: イメージ・トゥ・ビデオ(I2V)生成は、画像とテキスト入力から動的視覚コンテンツを合成し、創造的なコントロールを提供する。
本稿では,動的進化機能を備えたI2VモデルのマルチモーダルジェイルブレイクフレームワークであるRunawayEvilを提案する。
RunawayEvil は Open-Sora 2.0 や CogVideoX などの商用 I2V モデルに対して,最先端の攻撃成功率を実現している。
- 参考スコア(独自算出の注目度): 59.21761412103083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-Video (I2V) generation synthesizes dynamic visual content from image and text inputs, providing significant creative control. However, the security of such multimodal systems, particularly their vulnerability to jailbreak attacks, remains critically underexplored. To bridge this gap, we propose RunawayEvil, the first multimodal jailbreak framework for I2V models with dynamic evolutionary capability. Built on a "Strategy-Tactic-Action" paradigm, our framework exhibits self-amplifying attack through three core components: (1) Strategy-Aware Command Unit that enables the attack to self-evolve its strategies through reinforcement learning-driven strategy customization and LLM-based strategy exploration; (2) Multimodal Tactical Planning Unit that generates coordinated text jailbreak instructions and image tampering guidelines based on the selected strategies; (3) Tactical Action Unit that executes and evaluates the multimodal coordinated attacks. This self-evolving architecture allows the framework to continuously adapt and intensify its attack strategies without human intervention. Extensive experiments demonstrate RunawayEvil achieves state-of-the-art attack success rates on commercial I2V models, such as Open-Sora 2.0 and CogVideoX. Specifically, RunawayEvil outperforms existing methods by 58.5 to 79 percent on COCO2017. This work provides a critical tool for vulnerability analysis of I2V models, thereby laying a foundation for more robust video generation systems.
- Abstract(参考訳): イメージ・トゥ・ビデオ(I2V)生成は、画像とテキスト入力から動的視覚コンテンツを合成し、創造的なコントロールを提供する。
しかし、このようなマルチモーダルシステムのセキュリティ、特に脱獄攻撃に対する脆弱性は、いまだに過小評価されていない。
このギャップを埋めるため、我々は動的進化能力を持つI2Vモデルのための最初のマルチモーダルジェイルブレイクフレームワークであるRunawayEvilを提案する。
本手法は,「戦略・戦術・アクション」パラダイムに基づくもので,(1)強化学習による戦略カスタマイズとLCMに基づく戦略探索による戦略の自己発展を可能にする戦略・認識コマンドユニット,(2)協調したテキストジェイルブレイク命令と画像改ざんガイドラインを生成するマルチモーダル戦術計画ユニット,(3)マルチモーダル協調攻撃を実行・評価する戦術行動ユニットの3つのコアコンポーネントによる自己増幅攻撃を示す。
この自己進化型アーキテクチャにより、このフレームワークは人間の介入なしに攻撃戦略を継続的に適応し、強化することができる。
RunawayEvilは、Open-Sora 2.0やCagVideoXといった商用I2Vモデルで、最先端の攻撃成功率を実現している。
特にRunawayEvilはCOCO2017で既存の手法を58.5から79パーセント上回っている。
この研究は、I2Vモデルの脆弱性分析のための重要なツールを提供し、より堅牢なビデオ生成システムの基礎を築いた。
関連論文リスト
- Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization [51.12422886183246]
大規模言語モデル(LLM)は、Webサービスにおいて急速に発展し、社会的リスクを増幅しつつ、前例のない能力を提供してきた。
既存の作業は、分離されたジェイルブレイク攻撃または静的防御に重点を置いており、現実世界のWebコンテキストにおける進化する脅威とセーフガードの間の動的な相互作用を無視している。
ACE-Safetyは、2つの重要な革新的手順をシームレスに統合することにより、攻撃と防御モデルを協調的に最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T15:23:41Z) - An Automated Framework for Strategy Discovery, Retrieval, and Evolution in LLM Jailbreak Attacks [9.715575204912167]
攻撃戦略を自律的に発見し,回収し,進化させる脱獄フレームワークを提案する。
ASTRAは平均アタック成功率(ASR)が82.7%に達し、ベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2025-11-04T08:24:22Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。