論文の概要: SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations
- arxiv url: http://arxiv.org/abs/2412.06878v1
- Date: Mon, 09 Dec 2024 18:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:38:30.668299
- Title: SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations
- Title(参考訳): SafeWatch: 透明な説明付きビデオガードレールモデルに有効な安全対策
- Authors: Zhaorun Chen, Francesco Pinto, Minzhou Pan, Bo Li,
- Abstract要約: そこで我々は,MLLMをベースとした効率的なビデオガードレールモデルであるSafeWatchを提案する。
すべての安全ポリシーを自動回帰的にエンコードする従来のMLLMベースのガードレールとは異なり、SafeWatchはそれぞれのポリシーチャンクを並列にエンコードする。
さらに、SafeWatchにはポリシー対応のビジュアルトークンプルーニングアルゴリズムが組み込まれており、ポリシーごとに最も関連性の高いビデオトークンを適応的に選択する。
- 参考スコア(独自算出の注目度): 10.451619858527897
- License:
- Abstract: With the rise of generative AI and rapid growth of high-quality video generation, video guardrails have become more crucial than ever to ensure safety and security across platforms. Current video guardrails, however, are either overly simplistic, relying on pure classification models trained on simple policies with limited unsafe categories, which lack detailed explanations, or prompting multimodal large language models (MLLMs) with long safety guidelines, which are inefficient and impractical for guardrailing real-world content. To bridge this gap, we propose SafeWatch, an efficient MLLM-based video guardrail model designed to follow customized safety policies and provide multi-label video guardrail outputs with content-specific explanations in a zero-shot manner. In particular, unlike traditional MLLM-based guardrails that encode all safety policies autoregressively, causing inefficiency and bias, SafeWatch uniquely encodes each policy chunk in parallel and eliminates their position bias such that all policies are attended simultaneously with equal importance. In addition, to improve efficiency and accuracy, SafeWatch incorporates a policy-aware visual token pruning algorithm that adaptively selects the most relevant video tokens for each policy, discarding noisy or irrelevant information. This allows for more focused, policy-compliant guardrail with significantly reduced computational overhead. Considering the limitations of existing video guardrail benchmarks, we propose SafeWatch-Bench, a large-scale video guardrail benchmark comprising over 2M videos spanning six safety categories which covers over 30 tasks to ensure a comprehensive coverage of all potential safety scenarios. SafeWatch outperforms SOTA by 28.2% on SafeWatch-Bench, 13.6% on benchmarks, cuts costs by 10%, and delivers top-tier explanations validated by LLM and human reviews.
- Abstract(参考訳): 生成AIの台頭と高品質のビデオ生成の急速な成長により、ビデオガードレールはプラットフォーム全体の安全性とセキュリティを確保するために、これまで以上に重要になっている。
しかしながら、現在のビデオガードレールは、過度に単純化されており、詳細説明の欠如がある限られた安全カテゴリーの単純なポリシーで訓練された純粋な分類モデルや、現実世界のコンテンツをガードレールする非効率で非現実的な長い安全ガイドラインを持つマルチモーダルな大規模言語モデル(MLLM)に頼っている。
このギャップを埋めるため,MLLMをベースとした効率的なビデオガードレールモデルであるSafeWatchを提案する。
特に、すべての安全ポリシーを自己回帰的に符号化し、非効率性とバイアスを引き起こす従来のMLLMベースのガードレールとは異なり、SafeWatchはそれぞれのポリシーチャンクを並列に符号化し、すべてのポリシーが同じ重要性で同時に出席するように、それらの位置バイアスを取り除く。
さらに、効率性と精度を向上させるため、SafeWatchはポリシー対応のビジュアルトークン解析アルゴリズムを導入し、ポリシーごとに最も関連性の高いビデオトークンを適応的に選択し、ノイズや無関係な情報を破棄する。
これにより、計算オーバーヘッドを大幅に削減した、より集中的でポリシーに準拠したガードレールが可能になる。
既存のビデオガードレールベンチマークの限界を考慮すると、SafeWatch-Benchは6つの安全カテゴリにまたがる200万以上のビデオからなる大規模なビデオガードレールベンチマークであり、30以上のタスクをカバーし、潜在的な安全シナリオの包括的カバレッジを保証する。
SafeWatchは、SafeWatch-BenchでSOTAを28.2%、ベンチマークで13.6%、コストを10%削減し、LLMとヒューマンレビューで検証されたトップレベルの説明を提供する。
関連論文リスト
- SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。
本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。
実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T07:21:43Z) - Multitask Mayhem: Unveiling and Mitigating Safety Gaps in LLMs Fine-tuning [1.3307486544794784]
レッドチーム/セーフティアライメントの取り組みは、良質な(有害でない)データの微調整モデルが安全性を損なう可能性があることを示している。
本稿では,要約,コード生成,翻訳,分類などの下流タスクの微調整によるタスクの安全性の低下について検討する。
我々の研究は、より安全でロバストなモデルを保証するために、一般化されたアライメント対策の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-18T08:04:24Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing [1.474945380093949]
推論時ガードレール(ITG)は、モデルの出力分布をコンプライアンスにシフトするソリューションを提供する。
現在の手法は安全性と利便性のバランスをとるのに苦労している。
構造化制御フローを利用した新しいITG手法であるPrimeGuardを提案する。
論文 参考訳(メタデータ) (2024-07-23T09:14:27Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models [39.15695612766001]
T2VSafetyBenchは,テキスト・ビデオモデルの安全性評価のための新しいベンチマークである。
ビデオ生成の安全性に関する12の重要な側面を定義し,悪意のあるプロンプトデータセットを構築する。
異なるモデルは様々な強みを示す。
テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。
論文 参考訳(メタデータ) (2024-07-08T14:04:58Z) - Towards Comprehensive and Efficient Post Safety Alignment of Large Language Models via Safety Patching [77.36097118561057]
textscSafePatchingは包括的で効率的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的で効率的なPSAを実現する。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。