論文の概要: Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs
- arxiv url: http://arxiv.org/abs/2505.11842v1
- Date: Sat, 17 May 2025 05:06:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.888941
- Title: Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs
- Title(参考訳): Video-SafetyBench:ビデオLVLMの安全性評価ベンチマーク
- Authors: Xuannan Liu, Zekun Li, Zheqi He, Peipei Li, Shuhan Xia, Xing Cui, Huaibo Huang, Xi Yang, Ran He,
- Abstract要約: Video-SafetyBenchは、ビデオテキスト攻撃下でのLVLMの安全性を評価するために設計された最初のベンチマークである。
ビデオテキストのペアは2,264で、48のきめ細かいアンセーフなカテゴリにまたがっている。
安全性評価のためのセマンティックなビデオを生成するために,ビデオ意味論を主題画像とモーションテキストに分解する制御可能なパイプラインを設計する。
- 参考スコア(独自算出の注目度): 51.90597846977058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing deployment of Large Vision-Language Models (LVLMs) raises safety concerns under potential malicious inputs. However, existing multimodal safety evaluations primarily focus on model vulnerabilities exposed by static image inputs, ignoring the temporal dynamics of video that may induce distinct safety risks. To bridge this gap, we introduce Video-SafetyBench, the first comprehensive benchmark designed to evaluate the safety of LVLMs under video-text attacks. It comprises 2,264 video-text pairs spanning 48 fine-grained unsafe categories, each pairing a synthesized video with either a harmful query, which contains explicit malice, or a benign query, which appears harmless but triggers harmful behavior when interpreted alongside the video. To generate semantically accurate videos for safety evaluation, we design a controllable pipeline that decomposes video semantics into subject images (what is shown) and motion text (how it moves), which jointly guide the synthesis of query-relevant videos. To effectively evaluate uncertain or borderline harmful outputs, we propose RJScore, a novel LLM-based metric that incorporates the confidence of judge models and human-aligned decision threshold calibration. Extensive experiments show that benign-query video composition achieves average attack success rates of 67.2%, revealing consistent vulnerabilities to video-induced attacks. We believe Video-SafetyBench will catalyze future research into video-based safety evaluation and defense strategies.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の展開の増加は、潜在的な悪意のある入力下での安全性の懸念を高める。
しかし、既存のマルチモーダル安全性評価は主に静的画像入力によって暴露されるモデルの脆弱性に焦点を当てており、ビデオの時間的ダイナミクスを無視して、異なる安全性リスクを生じさせる可能性がある。
このギャップを埋めるために、ビデオテキスト攻撃下でのLVLMの安全性を評価するために設計された最初の総合ベンチマークであるVideo-SafetyBenchを紹介する。
2,264の動画テキストペアが48の細かい不安全カテゴリにまたがっており、それぞれが、露骨な悪意を含む有害なクエリと合成されたビデオをペアリングするか、または良心的なクエリをペアリングし、無害に見えるが、ビデオと一緒に解釈すると有害な振る舞いを引き起こす。
安全性評価のためのセマンティックなビデオを生成するために,ビデオ意味論を対象画像(表示内容)と動作テキスト(動作方法)に分解する制御可能なパイプラインを設計し,クエリ関連ビデオの合成を共同で指導する。
RJScoreは,判断モデルの信頼性と人手による決定しきい値のキャリブレーションを組み込んだ,LSMに基づく新しい指標である。
大規模な実験により、良性クエリーのビデオ合成は67.2%の平均的な攻撃成功率を達成し、ビデオによる攻撃に対する一貫した脆弱性を明らかにした。
Video-SafetyBenchは、ビデオによる安全性評価と防衛戦略の今後の研究を促進するだろう。
関連論文リスト
- PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking [3.718606661938873]
本稿では、ソフトウェアセキュリティからROP(Return-Oriented Programming)技術にインスパイアされた、新しい効果的なジェイルブレイクフレームワークを提案する。
提案手法では,有害な指示を視覚ガジェットの系列に分解する。
以上の結果から,LVLMの構成的推論能力を利用した,重要かつ過小評価された脆弱性が判明した。
論文 参考訳(メタデータ) (2025-07-29T07:13:56Z) - Watch, Listen, Understand, Mislead: Tri-modal Adversarial Attacks on Short Videos for Content Appropriateness Evaluation [1.0012740151280692]
本稿では,マルチモーダル大言語モデル(MLLM)の3次元安全性を評価するためのフレームワークを提案する。
本稿では,ヒト誘導型合成対向攻撃を用いたショートビデオ・マルチモーダル対向データセットを提案する。
最先端MLLMの大規模な実験により、攻撃成功率(ASR)の高い重大な脆弱性が明らかになった。
論文 参考訳(メタデータ) (2025-07-16T07:02:15Z) - HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。
私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。
我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - From Evaluation to Defense: Advancing Safety in Video Large Language Models [33.10355085086974]
textbfVideoSafetyBench (VSB-77k)は,ビデオLLMの安全性に関する大規模かつ文化的に多様なベンチマークである。
ビデオモダリティの統合は安全性を平均42.3%低下させ、マルチモーダル攻撃のシステム的リスクを露呈する。
我々は,2つのイノベーションを通じて,前例のない安全性向上を実現する2段階フレームワークである textbfVideoSafety-R1 を提案する。
論文 参考訳(メタデータ) (2025-05-22T13:16:53Z) - SafeVid: Toward Safety Aligned Video Large Multimodal Models [60.14535756294228]
ビデオ大マルチモーダルモデル(VLMM)にビデオ特化安全原則を取り入れたフレームワークであるSafeVidを紹介する。
SafeVidは、詳細なテキストによるビデオ記述を解釈ブリッジとして使用し、ルール駆動の安全推論を容易にする。
SafeVid-350KとのアライメントはVLMMの安全性を大幅に向上させ、LLaVA-NeXT-Videoのようなモデルも大幅に改善された。
論文 参考訳(メタデータ) (2025-05-17T09:21:33Z) - Jailbreaking the Text-to-Video Generative Models [95.43898677860565]
本稿では,テキスト・ツー・ビデオモデルに対するテキストファースト最適化に基づくジェイルブレイク攻撃を提案する。
提案手法は3つの主目的を持つ最適化問題として即時生成タスクを定式化する。
われわれは、Open-Sora、Pika、Luma、Klingなど、複数のテキスト・ビデオ・モデルにまたがる広範な実験を行っている。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。
確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。
既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文 参考訳(メタデータ) (2024-12-31T00:06:04Z) - SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations [10.451619858527897]
そこで我々は,MLLMをベースとした効率的なビデオガードレールモデルであるSafeWatchを提案する。
すべての安全ポリシーを自動回帰的にエンコードする従来のMLLMベースのガードレールとは異なり、SafeWatchはそれぞれのポリシーチャンクを並列にエンコードする。
さらに、SafeWatchにはポリシー対応のビジュアルトークンプルーニングアルゴリズムが組み込まれており、ポリシーごとに最も関連性の高いビデオトークンを適応的に選択する。
論文 参考訳(メタデータ) (2024-12-09T18:59:04Z) - T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models [39.15695612766001]
T2VSafetyBenchは,テキスト・ビデオモデルの安全性評価のための新しいベンチマークである。
ビデオ生成の安全性に関する12の重要な側面を定義し,悪意のあるプロンプトデータセットを構築する。
異なるモデルは様々な強みを示す。
テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。
論文 参考訳(メタデータ) (2024-07-08T14:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。