論文の概要: Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs
- arxiv url: http://arxiv.org/abs/2505.11842v1
- Date: Sat, 17 May 2025 05:06:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.888941
- Title: Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs
- Title(参考訳): Video-SafetyBench:ビデオLVLMの安全性評価ベンチマーク
- Authors: Xuannan Liu, Zekun Li, Zheqi He, Peipei Li, Shuhan Xia, Xing Cui, Huaibo Huang, Xi Yang, Ran He,
- Abstract要約: Video-SafetyBenchは、ビデオテキスト攻撃下でのLVLMの安全性を評価するために設計された最初のベンチマークである。
ビデオテキストのペアは2,264で、48のきめ細かいアンセーフなカテゴリにまたがっている。
安全性評価のためのセマンティックなビデオを生成するために,ビデオ意味論を主題画像とモーションテキストに分解する制御可能なパイプラインを設計する。
- 参考スコア(独自算出の注目度): 51.90597846977058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing deployment of Large Vision-Language Models (LVLMs) raises safety concerns under potential malicious inputs. However, existing multimodal safety evaluations primarily focus on model vulnerabilities exposed by static image inputs, ignoring the temporal dynamics of video that may induce distinct safety risks. To bridge this gap, we introduce Video-SafetyBench, the first comprehensive benchmark designed to evaluate the safety of LVLMs under video-text attacks. It comprises 2,264 video-text pairs spanning 48 fine-grained unsafe categories, each pairing a synthesized video with either a harmful query, which contains explicit malice, or a benign query, which appears harmless but triggers harmful behavior when interpreted alongside the video. To generate semantically accurate videos for safety evaluation, we design a controllable pipeline that decomposes video semantics into subject images (what is shown) and motion text (how it moves), which jointly guide the synthesis of query-relevant videos. To effectively evaluate uncertain or borderline harmful outputs, we propose RJScore, a novel LLM-based metric that incorporates the confidence of judge models and human-aligned decision threshold calibration. Extensive experiments show that benign-query video composition achieves average attack success rates of 67.2%, revealing consistent vulnerabilities to video-induced attacks. We believe Video-SafetyBench will catalyze future research into video-based safety evaluation and defense strategies.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の展開の増加は、潜在的な悪意のある入力下での安全性の懸念を高める。
しかし、既存のマルチモーダル安全性評価は主に静的画像入力によって暴露されるモデルの脆弱性に焦点を当てており、ビデオの時間的ダイナミクスを無視して、異なる安全性リスクを生じさせる可能性がある。
このギャップを埋めるために、ビデオテキスト攻撃下でのLVLMの安全性を評価するために設計された最初の総合ベンチマークであるVideo-SafetyBenchを紹介する。
2,264の動画テキストペアが48の細かい不安全カテゴリにまたがっており、それぞれが、露骨な悪意を含む有害なクエリと合成されたビデオをペアリングするか、または良心的なクエリをペアリングし、無害に見えるが、ビデオと一緒に解釈すると有害な振る舞いを引き起こす。
安全性評価のためのセマンティックなビデオを生成するために,ビデオ意味論を対象画像(表示内容)と動作テキスト(動作方法)に分解する制御可能なパイプラインを設計し,クエリ関連ビデオの合成を共同で指導する。
RJScoreは,判断モデルの信頼性と人手による決定しきい値のキャリブレーションを組み込んだ,LSMに基づく新しい指標である。
大規模な実験により、良性クエリーのビデオ合成は67.2%の平均的な攻撃成功率を達成し、ビデオによる攻撃に対する一貫した脆弱性を明らかにした。
Video-SafetyBenchは、ビデオによる安全性評価と防衛戦略の今後の研究を促進するだろう。
関連論文リスト
- SafeVid: Toward Safety Aligned Video Large Multimodal Models [60.14535756294228]
ビデオ大マルチモーダルモデル(VLMM)にビデオ特化安全原則を取り入れたフレームワークであるSafeVidを紹介する。
SafeVidは、詳細なテキストによるビデオ記述を解釈ブリッジとして使用し、ルール駆動の安全推論を容易にする。
SafeVid-350KとのアライメントはVLMMの安全性を大幅に向上させ、LLaVA-NeXT-Videoのようなモデルも大幅に改善された。
論文 参考訳(メタデータ) (2025-05-17T09:21:33Z) - Jailbreaking the Text-to-Video Generative Models [95.43898677860565]
本稿では,テキスト・ツー・ビデオモデルに対するテキストファースト最適化に基づくジェイルブレイク攻撃を提案する。
提案手法は3つの主目的を持つ最適化問題として即時生成タスクを定式化する。
われわれは、Open-Sora、Pika、Luma、Klingなど、複数のテキスト・ビデオ・モデルにまたがる広範な実験を行っている。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。
確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。
既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文 参考訳(メタデータ) (2024-12-31T00:06:04Z) - SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations [10.451619858527897]
そこで我々は,MLLMをベースとした効率的なビデオガードレールモデルであるSafeWatchを提案する。
すべての安全ポリシーを自動回帰的にエンコードする従来のMLLMベースのガードレールとは異なり、SafeWatchはそれぞれのポリシーチャンクを並列にエンコードする。
さらに、SafeWatchにはポリシー対応のビジュアルトークンプルーニングアルゴリズムが組み込まれており、ポリシーごとに最も関連性の高いビデオトークンを適応的に選択する。
論文 参考訳(メタデータ) (2024-12-09T18:59:04Z) - T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models [39.15695612766001]
T2VSafetyBenchは,テキスト・ビデオモデルの安全性評価のための新しいベンチマークである。
ビデオ生成の安全性に関する12の重要な側面を定義し,悪意のあるプロンプトデータセットを構築する。
異なるモデルは様々な強みを示す。
テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。
論文 参考訳(メタデータ) (2024-07-08T14:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。