論文の概要: SafeVid: Toward Safety Aligned Video Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2505.11926v1
- Date: Sat, 17 May 2025 09:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.943319
- Title: SafeVid: Toward Safety Aligned Video Large Multimodal Models
- Title(参考訳): SafeVid: 安全に配慮したビデオの大規模マルチモーダルモデルを目指して
- Authors: Yixu Wang, Jiaxin Song, Yifeng Gao, Xin Wang, Yang Yao, Yan Teng, Xingjun Ma, Yingchun Wang, Yu-Gang Jiang,
- Abstract要約: ビデオ大マルチモーダルモデル(VLMM)にビデオ特化安全原則を取り入れたフレームワークであるSafeVidを紹介する。
SafeVidは、詳細なテキストによるビデオ記述を解釈ブリッジとして使用し、ルール駆動の安全推論を容易にする。
SafeVid-350KとのアライメントはVLMMの安全性を大幅に向上させ、LLaVA-NeXT-Videoのようなモデルも大幅に改善された。
- 参考スコア(独自算出の注目度): 60.14535756294228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Video Large Multimodal Models (VLMMs) rapidly advance, their inherent complexity introduces significant safety challenges, particularly the issue of mismatched generalization where static safety alignments fail to transfer to dynamic video contexts. We introduce SafeVid, a framework designed to instill video-specific safety principles in VLMMs. SafeVid uniquely transfers robust textual safety alignment capabilities to the video domain by employing detailed textual video descriptions as an interpretive bridge, facilitating LLM-based rule-driven safety reasoning. This is achieved through a closed-loop system comprising: 1) generation of SafeVid-350K, a novel 350,000-pair video-specific safety preference dataset; 2) targeted alignment of VLMMs using Direct Preference Optimization (DPO); and 3) comprehensive evaluation via our new SafeVidBench benchmark. Alignment with SafeVid-350K significantly enhances VLMM safety, with models like LLaVA-NeXT-Video demonstrating substantial improvements (e.g., up to 42.39%) on SafeVidBench. SafeVid provides critical resources and a structured approach, demonstrating that leveraging textual descriptions as a conduit for safety reasoning markedly improves the safety alignment of VLMMs. We have made SafeVid-350K dataset (https://huggingface.co/datasets/yxwang/SafeVid-350K) publicly available.
- Abstract(参考訳): ビデオ大マルチモーダルモデル(VLMM)が急速に進歩するにつれて、その固有の複雑さは、特に静的な安全アライメントがダイナミックなビデオコンテキストに転送できないような、ミスマッチした一般化の問題など、重大な安全性上の課題をもたらす。
VLMMにビデオ固有の安全原則を組み込むためのフレームワークであるSafeVidを紹介する。
SafeVidは、詳細なテキストビデオ記述を解釈ブリッジとして使用することにより、堅牢なテキストセーフアライメント機能をビデオドメインに一意に転送し、LSMベースのルール駆動型安全推論を容易にする。
これは、以下からなる閉ループシステムによって達成される。
1 SafeVid-350K の創出。
2) DPO(Direct Preference Optimization)を用いたVLMMのターゲットアライメント
3) 新しいSafeVidBenchベンチマークによる総合的な評価。
SafeVid-350KとのアライメントはVLMMの安全性を大幅に向上させ、LLaVA-NeXT-VideoのようなモデルはSafeVidBench上で大幅に改善された(例:最大42.39%)。
SafeVidは重要なリソースと構造化されたアプローチを提供し、安全推論のためのコンジットとしてテキスト記述を活用することにより、VLMMの安全性アライメントが著しく向上することを示した。
SafeVid-350Kデータセット(https://huggingface.co/datasets/yxwang/SafeVid-350K)を公開しました。
関連論文リスト
- Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs [51.90597846977058]
Video-SafetyBenchは、ビデオテキスト攻撃下でのLVLMの安全性を評価するために設計された最初のベンチマークである。
ビデオテキストのペアは2,264で、48のきめ細かいアンセーフなカテゴリにまたがっている。
安全性評価のためのセマンティックなビデオを生成するために,ビデオ意味論を主題画像とモーションテキストに分解する制御可能なパイプラインを設計する。
論文 参考訳(メタデータ) (2025-05-17T05:06:38Z) - VPO: Aligning Text-to-Video Generation Models with Prompt Optimization [80.86205966195593]
ビデオ生成モデルは、通常、高度に詳細で慎重に記述されたテキストとビデオのペアで訓練される。
VPOは3つの基本原則(無害性、正確性、有用性)に基づいてプロンプトを最適化する、原則化されたフレームワークです。
実験の結果,VPOは基準法に比べて安全性,アライメント,画質を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-03-26T12:28:20Z) - Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models [34.66687625996389]
汎用AIアシスタントの開発にはMLLM(Multimodal large language model)が不可欠である。
差別、誤報、倫理基準違反などの望ましくない行動を防止するために、MLLMが安全に整列されていることをどうやって保証できるのか。
安全性と安全性を共同で最適化する,初のマルチモーダル安全アライメントフレームワークであるSafe RLHF-Vを提案する。
論文 参考訳(メタデータ) (2025-03-22T07:40:20Z) - SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings [32.661752596399204]
MLLM(Multimodal Large Language Models)は、重大なセキュリティ上の脆弱性を持つ。
テキストアライメントを含む既存の低リソースのセキュリティアライメント手法は、追加のモダリティによって引き起こされるセキュリティリスクに悩まされている。
勾配更新による追加モダリティの埋め込みを最適化するSEA(Synthetic Embedding augmented safety alignment)を提案する。
論文 参考訳(メタデータ) (2025-02-18T05:57:35Z) - Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations [10.451619858527897]
そこで我々は,MLLMをベースとした効率的なビデオガードレールモデルであるSafeWatchを提案する。
すべての安全ポリシーを自動回帰的にエンコードする従来のMLLMベースのガードレールとは異なり、SafeWatchはそれぞれのポリシーチャンクを並列にエンコードする。
さらに、SafeWatchにはポリシー対応のビジュアルトークンプルーニングアルゴリズムが組み込まれており、ポリシーごとに最も関連性の高いビデオトークンを適応的に選択する。
論文 参考訳(メタデータ) (2024-12-09T18:59:04Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts [14.33139608409507]
We propose FigStep, a simple yet effective black-box jailbreak algorithm against LVLMs。
FigStepは、禁止されたコンテンツをタイポグラフィーで画像に変換し、安全アライメントをバイパスする。
我々の研究は、現在のLVLMがジェイルブレイク攻撃に対して脆弱であることを明らかにし、新しいモダリティ間の安全アライメント技術の必要性を強調している。
論文 参考訳(メタデータ) (2023-11-09T18:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。