論文の概要: VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models
- arxiv url: http://arxiv.org/abs/2602.20999v1
- Date: Tue, 24 Feb 2026 15:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.81149
- Title: VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models
- Title(参考訳): VII: 映像・映像生成モデルのジェイルブレークのためのビジュアルインストラクションインジェクション
- Authors: Bowen Zheng, Yongli Xiang, Ziming Hong, Zerong Lin, Chaojian Yu, Tongliang Liu, Xinge You,
- Abstract要約: 参照画像に映像生成を条件付けるI2V(Image-to-Video)生成モデルは、新たな視覚的指示追従能力を示す。
安全でないテキストプロンプトの悪意ある意図を、安全な参照画像の良心的な視覚的指示として偽装する、トレーニング不要で移動可能なジェイルブレイクフレームワークであるVisual Instruction Injection (VII)を提案する。
VIIは最大83.5%のアタック成功率を達成し、拒絶率をほぼゼロに抑え、既存のベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 57.128876964730644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-Video (I2V) generation models, which condition video generation on reference images, have shown emerging visual instruction-following capability, allowing certain visual cues in reference images to act as implicit control signals for video generation. However, this capability also introduces a previously overlooked risk: adversaries may exploit visual instructions to inject malicious intent through the image modality. In this work, we uncover this risk by proposing Visual Instruction Injection (VII), a training-free and transferable jailbreaking framework that intentionally disguises the malicious intent of unsafe text prompts as benign visual instructions in the safe reference image. Specifically, VII coordinates a Malicious Intent Reprogramming module to distill malicious intent from unsafe text prompts while minimizing their static harmfulness, and a Visual Instruction Grounding module to ground the distilled intent onto a safe input image by rendering visual instructions that preserve semantic consistency with the original unsafe text prompt, thereby inducing harmful content during I2V generation. Empirically, our extensive experiments on four state-of-the-art commercial I2V models (Kling-v2.5-turbo, Gemini Veo-3.1, Seedance-1.5-pro, and PixVerse-V5) demonstrate that VII achieves Attack Success Rates of up to 83.5% while reducing Refusal Rates to near zero, significantly outperforming existing baselines.
- Abstract(参考訳): 参照画像に映像生成を条件付ける画像対映像生成モデル(I2V)は、参照画像中の特定の視覚的手がかりをビデオ生成の暗黙的な制御信号として機能させる、新たな視覚的指示追従能力を示す。
敵は画像のモダリティを通じて悪意ある意図を注入するために視覚的指示を利用する可能性がある。
本研究では、安全でないテキストの悪意的な意図を故意に偽装し、安全な参照画像の良心的な視覚的指示として表現する、トレーニング不要で移動可能なジェイルブレイクフレームワークであるビジュアルインストラクションインジェクション(VII)を提案することにより、このリスクを明らかにする。
具体的には、悪意のあるインテント・リプログラミングモジュールをコーディネートして、安全でないテキストプロンプトから悪意あるインテントを抽出し、その静的な有害性を最小化しつつ、視覚的インストラクショングラウンドングモジュールを、元のアンセーフなテキストプロンプトとセマンティックな一貫性を保った視覚的インストラクションをレンダリングし、I2V生成時に有害なコンストラクションを誘導する。
Kling-v2.5-turbo, Gemini Veo-3.1, Seedance-1.5-pro, PixVerse-V5 の4つの最先端商用 I2V モデルに対する実験により、VII が最大83.5% の攻撃成功率を達成し、拒絶率をほぼゼロに抑え、既存のベースラインを著しく上回ったことが実証された。
関連論文リスト
- When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models [19.655310421085435]
本稿では,視覚的・視覚的ジェイルブレイク攻撃として視覚中心ジェイルブレイク攻撃(VJA)を提案する。
VJAは視覚入力を通じて悪意のある命令を純粋に伝達する。
イントロスペクティブなマルチモーダル推論に基づく無訓練防衛を提案する。
論文 参考訳(メタデータ) (2026-02-10T18:59:55Z) - VEIL: Jailbreaking Text-to-Video Models via Visual Exploitation from Implicit Language [25.38940067963429]
テキスト・ツー・ビデオ(T2V)モデルに対する以前の攻撃は、通常、明らかに安全でないプロンプトに敵の摂動を追加する。
我々は、リッチで暗黙的な手がかりを含む良心的なプロンプトがT2Vモデルを誘導し、セマンティックなアンセーフなビデオを生成することを示した。
本稿では,モジュール型プロンプト設計により,T2Vモデルの相互関連パターンを活用するジェイルブレイクフレームワークVEILを提案する。
論文 参考訳(メタデータ) (2025-11-17T08:31:43Z) - VisualDAN: Exposing Vulnerabilities in VLMs with Visual-Driven DAN Commands [5.1114671756882535]
この研究は、DANスタイルのコマンドに埋め込まれた単一の逆画像であるVisualDANを導入している。
我々は、有害なコーパスに肯定的なプレフィックスを付与し、モデルに悪質なクエリに正の反応をさせる。
この結果から, 少量の有害物質であっても, モデルの防御が損なわれれば, 有害なアウトプットを著しく増幅できることが示唆された。
論文 参考訳(メタデータ) (2025-10-09T16:18:31Z) - Vid-Freeze: Protecting Images from Malicious Image-to-Video Generation via Temporal Freezing [2.48490797934472]
Vid-Freezeは、新しい注意を抑える敵攻撃であり、画像に慎重に敵の摂動を追加する。
本手法は, 動作合成を完全に破壊するI2Vモデルの注意機構を目標とした。
その結果、免疫された画像は、スタンスチールまたはニアスタティックなビデオを生成し、悪意のあるコンテンツ生成を効果的にブロックする。
論文 参考訳(メタデータ) (2025-09-27T12:26:34Z) - VCE: Safe Autoregressive Image Generation via Visual Contrast Exploitation [57.36681904639463]
自己回帰的テキスト・画像モデルを保護する方法はまだ未検討のままである。
コンテンツセマンティクスから安全でない概念を正確に分離する新しいフレームワークであるVisual Contrast Exploitation (VCE)を提案する。
提案手法は,安全でない概念を消去し,無関係な概念の整合性を保ちながら,最先端の成果を効果的に確保できることを実証する。
論文 参考訳(メタデータ) (2025-09-21T09:00:27Z) - Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step [65.1882845496516]
ステップバイステップの編集プロセスを通じて画像生成モデルを損なう、Chain-of-Jailbreak (CoJ)アタックと呼ばれる新しいジェイルブレイク手法を提案する。
我々のCoJ攻撃手法は、60%以上のケースでモデルの保護を回避できる。
また,効果的なプロンプトベース手法であるThink Twice Promptingを提案する。
論文 参考訳(メタデータ) (2024-10-04T19:04:43Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - SafeGen: Mitigating Sexually Explicit Content Generation in Text-to-Image Models [28.23494821842336]
テキスト・ツー・イメージ・モデルは、安全でない作業用コンテンツ(NSFW)を生成するために騙されることがある。
我々は、テキスト・ツー・イメージ・モデルによる性的コンテンツ生成を緩和するフレームワークであるSafeGenを紹介する。
論文 参考訳(メタデータ) (2024-04-10T00:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。