論文の概要: From Evaluation to Defense: Advancing Safety in Video Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16643v1
- Date: Thu, 22 May 2025 13:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.309208
- Title: From Evaluation to Defense: Advancing Safety in Video Large Language Models
- Title(参考訳): 評価から防衛へ:ビデオ大言語モデルにおける安全性の向上
- Authors: Yiwei Sun, Peiqi Jiang, Chuanbin Liu, Luohao Lin, Zhiying Lu, Hongtao Xie,
- Abstract要約: textbfVideoSafetyBench (VSB-77k)は,ビデオLLMの安全性に関する大規模かつ文化的に多様なベンチマークである。
ビデオモダリティの統合は安全性を平均42.3%低下させ、マルチモーダル攻撃のシステム的リスクを露呈する。
我々は,2つのイノベーションを通じて,前例のない安全性向上を実現する2段階フレームワークである textbfVideoSafety-R1 を提案する。
- 参考スコア(独自算出の注目度): 33.10355085086974
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While the safety risks of image-based large language models have been extensively studied, their video-based counterparts (Video LLMs) remain critically under-examined. To systematically study this problem, we introduce \textbf{VideoSafetyBench (VSB-77k) - the first large-scale, culturally diverse benchmark for Video LLM safety}, which compromises 77,646 video-query pairs and spans 19 principal risk categories across 10 language communities. \textit{We reveal that integrating video modality degrades safety performance by an average of 42.3\%, exposing systemic risks in multimodal attack exploitation.} To address this vulnerability, we propose \textbf{VideoSafety-R1}, a dual-stage framework achieving unprecedented safety gains through two innovations: (1) Alarm Token-Guided Safety Fine-Tuning (AT-SFT) injects learnable alarm tokens into visual and textual sequences, enabling explicit harm perception across modalities via multitask objectives. (2) Then, Safety-Guided GRPO enhances defensive reasoning through dynamic policy optimization with rule-based rewards derived from dual-modality verification. These components synergize to shift safety alignment from passive harm recognition to active reasoning. The resulting framework achieves a 65.1\% improvement on VSB-Eval-HH, and improves by 59.1\%, 44.3\%, and 15.0\% on the image safety datasets MMBench, VLGuard, and FigStep, respectively. \textit{Our codes are available in the supplementary materials.} \textcolor{red}{Warning: This paper contains examples of harmful language and videos, and reader discretion is recommended.}
- Abstract(参考訳): 画像ベース大規模言語モデルの安全性リスクは広く研究されているが、ビデオベース対応言語(ビデオLLM)はいまだに過小評価されていない。
この問題を体系的に研究するために,ビデオLLMセーフティの最初の大規模かつ文化的に多様なベンチマークである \textbf{VideoSafetyBench (VSB-77k) を紹介した。
ビデオモダリティの統合は安全性を平均42.3倍に低下させ、マルチモーダルアタック攻撃におけるシステム的リスクを露呈する。
この脆弱性に対処するため,(1)Alarm Token-Guided Safety Fine-Tuning (AT-SFT) は学習可能なアラームトークンを視覚的およびテキスト的シーケンスに注入し,マルチタスク目的を通じてモジュール間の明示的な調和知覚を可能にする。
2) 安全誘導型GRPOは, 二重モード検証によるルールベース報酬による動的ポリシー最適化により, 防御的推論を強化する。
これらのコンポーネントは、安全アライメントをパッシブ調和認識からアクティブ推論に移行するために相乗効果がある。
このフレームワークは、VSB-Eval-HHの65.1\%の改善を実現し、画像安全データセットMMBench、VLGuard、FigStepの59.1\%、44.3\%、および15.0\%の改善を実現している。
\textit{Our codes は補足資料で利用可能である。
} \textcolor{red}{Warning: この論文には有害な言語やビデオの例が含まれており、読者の判断が推奨されている。
※
関連論文リスト
- SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - SafeVid: Toward Safety Aligned Video Large Multimodal Models [60.14535756294228]
ビデオ大マルチモーダルモデル(VLMM)にビデオ特化安全原則を取り入れたフレームワークであるSafeVidを紹介する。
SafeVidは、詳細なテキストによるビデオ記述を解釈ブリッジとして使用し、ルール駆動の安全推論を容易にする。
SafeVid-350KとのアライメントはVLMMの安全性を大幅に向上させ、LLaVA-NeXT-Videoのようなモデルも大幅に改善された。
論文 参考訳(メタデータ) (2025-05-17T09:21:33Z) - Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs [51.90597846977058]
Video-SafetyBenchは、ビデオテキスト攻撃下でのLVLMの安全性を評価するために設計された最初のベンチマークである。
ビデオテキストのペアは2,264で、48のきめ細かいアンセーフなカテゴリにまたがっている。
安全性評価のためのセマンティックなビデオを生成するために,ビデオ意味論を主題画像とモーションテキストに分解する制御可能なパイプラインを設計する。
論文 参考訳(メタデータ) (2025-05-17T05:06:38Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations [10.451619858527897]
そこで我々は,MLLMをベースとした効率的なビデオガードレールモデルであるSafeWatchを提案する。
すべての安全ポリシーを自動回帰的にエンコードする従来のMLLMベースのガードレールとは異なり、SafeWatchはそれぞれのポリシーチャンクを並列にエンコードする。
さらに、SafeWatchにはポリシー対応のビジュアルトークンプルーニングアルゴリズムが組み込まれており、ポリシーごとに最も関連性の高いビデオトークンを適応的に選択する。
論文 参考訳(メタデータ) (2024-12-09T18:59:04Z) - Safety Alignment for Vision Language Models [21.441662865727448]
安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。
提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
論文 参考訳(メタデータ) (2024-05-22T12:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。