論文の概要: ConceptGuard: Proactive Safety in Text-and-Image-to-Video Generation through Multimodal Risk Detection
- arxiv url: http://arxiv.org/abs/2511.18780v2
- Date: Tue, 25 Nov 2025 17:33:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 15:01:35.392899
- Title: ConceptGuard: Proactive Safety in Text-and-Image-to-Video Generation through Multimodal Risk Detection
- Title(参考訳): ConceptGuard:マルチモーダルリスク検出によるテキスト・画像・ビデオ生成の積極的な安全性
- Authors: Ruize Ma, Minghong Cai, Yilei Jiang, Jiaming Han, Yi Feng, Yingshui Tan, Xiaoyong Zhu, Bo Zhang, Bo Zheng, Xiangyu Yue,
- Abstract要約: ConceptGuardは、マルチモーダルビデオ生成において、安全でないセマンティクスを積極的に検出し緩和するフレームワークである。
コントラスト検出モジュールは、融合画像テキスト入力を構造化概念空間に投影することにより、潜伏する安全リスクを特定する。
意味的抑制機構は、プロンプトのマルチモーダル条件を介在することにより、生成過程を安全でない概念から遠ざける。
- 参考スコア(独自算出の注目度): 27.47621607462884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in video generative models has enabled the creation of high-quality videos from multimodal prompts that combine text and images. While these systems offer enhanced controllability, they also introduce new safety risks, as harmful content can emerge from individual modalities or their interaction. Existing safety methods are often text-only, require prior knowledge of the risk category, or operate as post-generation auditors, struggling to proactively mitigate such compositional, multimodal risks. To address this challenge, we present ConceptGuard, a unified safeguard framework for proactively detecting and mitigating unsafe semantics in multimodal video generation. ConceptGuard operates in two stages: First, a contrastive detection module identifies latent safety risks by projecting fused image-text inputs into a structured concept space; Second, a semantic suppression mechanism steers the generative process away from unsafe concepts by intervening in the prompt's multimodal conditioning. To support the development and rigorous evaluation of this framework, we introduce two novel benchmarks: ConceptRisk, a large-scale dataset for training on multimodal risks, and T2VSafetyBench-TI2V, the first benchmark adapted from T2VSafetyBench for the Text-and-Image-to-Video (TI2V) safety setting. Comprehensive experiments on both benchmarks show that ConceptGuard consistently outperforms existing baselines, achieving state-of-the-art results in both risk detection and safe video generation.Our code is available at https://github.com/Ruize-Ma/ConceptGuard.
- Abstract(参考訳): ビデオ生成モデルの最近の進歩により、テキストと画像を組み合わせたマルチモーダルプロンプトから高品質なビデオの作成が可能になった。
これらのシステムはコントロール性を向上する一方で、有害なコンテンツが個々のモダリティやその相互作用から現れるため、新たな安全リスクも導入する。
既存の安全手法はテキストのみであり、リスクカテゴリの事前知識を必要とすることや、ポストジェネレーション監査役として運用されることがしばしばあり、このような構成的・マルチモーダルなリスクを積極的に軽減するのに苦労している。
この課題に対処するため,マルチモーダルビデオ生成において,安全でないセマンティクスを積極的に検出・緩和するための統一型セーフガードフレームワークであるConceptGuardを提案する。
コントラスト検出モジュールは、融合した画像テキスト入力を構造化された概念空間に投影することで、遅延安全性のリスクを識別する。
このフレームワークの開発と厳密な評価を支援するために,マルチモーダルリスクのトレーニングのための大規模データセットであるConceptRiskと,テキスト・アンド・イメージ・トゥ・ビデオ(TI2V)の安全性設定のためにT2VSafetyBenchから適応された最初のベンチマークであるT2VSafetyBench-TI2Vの2つの新しいベンチマークを紹介した。
両方のベンチマークに関する包括的な実験は、ConceptGuardが既存のベースラインを一貫して上回り、リスク検出と安全なビデオ生成の両方で最先端の結果を達成することを示している。
関連論文リスト
- SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - HoliSafe: Holistic Safety Benchmarking and Modeling for Vision-Language Model [58.12612140992874]
我々は、安全で安全でない5つの画像テキストの組み合わせにまたがる、全体的な安全データセットとベンチマークである textbfHoliSafeを紹介した。
また,入力画像の有害性を評価するために,視覚ガードモジュール(VGM)を用いて,VLMの安全性を高めるための新しいモジュラーフレームワークを提案する。
実験により、HoliSafeでトレーニングされたVGMを使用したSafe-VLMは、複数のVLMベンチマークで最先端の安全性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models [39.15695612766001]
T2VSafetyBenchは,テキスト・ビデオモデルの安全性評価のための新しいベンチマークである。
ビデオ生成の安全性に関する12の重要な側面を定義し,悪意のあるプロンプトデータセットを構築する。
異なるモデルは様々な強みを示す。
テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。
論文 参考訳(メタデータ) (2024-07-08T14:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。