Fugu-MT 論文翻訳(概要): SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations

論文の概要: SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations

arxiv url: http://arxiv.org/abs/2412.06878v1
Date: Mon, 09 Dec 2024 18:59:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.110684
Title: SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations
Title（参考訳）: SafeWatch: 透明な説明付きビデオガードレールモデルに有効な安全対策
Authors: Zhaorun Chen, Francesco Pinto, Minzhou Pan, Bo Li,
Abstract要約: そこで我々は,MLLMをベースとした効率的なビデオガードレールモデルであるSafeWatchを提案する。すべての安全ポリシーを自動回帰的にエンコードする従来のMLLMベースのガードレールとは異なり、SafeWatchはそれぞれのポリシーチャンクを並列にエンコードする。さらに、SafeWatchにはポリシー対応のビジュアルトークンプルーニングアルゴリズムが組み込まれており、ポリシーごとに最も関連性の高いビデオトークンを適応的に選択する。
参考スコア（独自算出の注目度）: 10.451619858527897
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rise of generative AI and rapid growth of high-quality video generation, video guardrails have become more crucial than ever to ensure safety and security across platforms. Current video guardrails, however, are either overly simplistic, relying on pure classification models trained on simple policies with limited unsafe categories, which lack detailed explanations, or prompting multimodal large language models (MLLMs) with long safety guidelines, which are inefficient and impractical for guardrailing real-world content. To bridge this gap, we propose SafeWatch, an efficient MLLM-based video guardrail model designed to follow customized safety policies and provide multi-label video guardrail outputs with content-specific explanations in a zero-shot manner. In particular, unlike traditional MLLM-based guardrails that encode all safety policies autoregressively, causing inefficiency and bias, SafeWatch uniquely encodes each policy chunk in parallel and eliminates their position bias such that all policies are attended simultaneously with equal importance. In addition, to improve efficiency and accuracy, SafeWatch incorporates a policy-aware visual token pruning algorithm that adaptively selects the most relevant video tokens for each policy, discarding noisy or irrelevant information. This allows for more focused, policy-compliant guardrail with significantly reduced computational overhead. Considering the limitations of existing video guardrail benchmarks, we propose SafeWatch-Bench, a large-scale video guardrail benchmark comprising over 2M videos spanning six safety categories which covers over 30 tasks to ensure a comprehensive coverage of all potential safety scenarios. SafeWatch outperforms SOTA by 28.2% on SafeWatch-Bench, 13.6% on benchmarks, cuts costs by 10%, and delivers top-tier explanations validated by LLM and human reviews.
Abstract（参考訳）: 生成AIの台頭と高品質のビデオ生成の急速な成長により、ビデオガードレールはプラットフォーム全体の安全性とセキュリティを確保するために、これまで以上に重要になっている。しかしながら、現在のビデオガードレールは、過度に単純化されており、詳細説明の欠如がある限られた安全カテゴリーの単純なポリシーで訓練された純粋な分類モデルや、現実世界のコンテンツをガードレールする非効率で非現実的な長い安全ガイドラインを持つマルチモーダルな大規模言語モデル(MLLM)に頼っている。このギャップを埋めるため,MLLMをベースとした効率的なビデオガードレールモデルであるSafeWatchを提案する。特に、すべての安全ポリシーを自己回帰的に符号化し、非効率性とバイアスを引き起こす従来のMLLMベースのガードレールとは異なり、SafeWatchはそれぞれのポリシーチャンクを並列に符号化し、すべてのポリシーが同じ重要性で同時に出席するように、それらの位置バイアスを取り除く。さらに、効率性と精度を向上させるため、SafeWatchはポリシー対応のビジュアルトークン解析アルゴリズムを導入し、ポリシーごとに最も関連性の高いビデオトークンを適応的に選択し、ノイズや無関係な情報を破棄する。これにより、計算オーバーヘッドを大幅に削減した、より集中的でポリシーに準拠したガードレールが可能になる。既存のビデオガードレールベンチマークの限界を考慮すると、SafeWatch-Benchは6つの安全カテゴリにまたがる200万以上のビデオからなる大規模なビデオガードレールベンチマークであり、30以上のタスクをカバーし、潜在的な安全シナリオの包括的カバレッジを保証する。 SafeWatchは、SafeWatch-BenchでSOTAを28.2%、ベンチマークで13.6%、コストを10%削減し、LLMとヒューマンレビューで検証されたトップレベルの説明を提供する。

関連論文リスト

iSafetyBench: A video-language benchmark for safety in industrial environment [6.697702130929693]
iSafetyBenchは、産業環境でのモデルパフォーマンスを評価するために設計された新しいビデオ言語ベンチマークである。 iSafetyBenchは、現実世界の産業環境から得られた1100本のビデオクリップで構成されている。ゼロショット条件下で8つの最先端ビデオ言語モデルを評価する。
論文参考訳（メタデータ） (2025-08-01T07:55:53Z)
Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。 SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。 SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文参考訳（メタデータ） (2025-07-29T17:39:48Z)
HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T07:26:34Z)
From Evaluation to Defense: Advancing Safety in Video Large Language Models [33.10355085086974]
textbfVideoSafetyBench (VSB-77k)は,ビデオLLMの安全性に関する大規模かつ文化的に多様なベンチマークである。ビデオモダリティの統合は安全性を平均42.3%低下させ、マルチモーダル攻撃のシステム的リスクを露呈する。我々は,2つのイノベーションを通じて,前例のない安全性向上を実現する2段階フレームワークである textbfVideoSafety-R1 を提案する。
論文参考訳（メタデータ） (2025-05-22T13:16:53Z)
SafeVid: Toward Safety Aligned Video Large Multimodal Models [60.14535756294228]
ビデオ大マルチモーダルモデル(VLMM)にビデオ特化安全原則を取り入れたフレームワークであるSafeVidを紹介する。 SafeVidは、詳細なテキストによるビデオ記述を解釈ブリッジとして使用し、ルール駆動の安全推論を容易にする。 SafeVid-350KとのアライメントはVLMMの安全性を大幅に向上させ、LLaVA-NeXT-Videoのようなモデルも大幅に改善された。
論文参考訳（メタデータ） (2025-05-17T09:21:33Z)
Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs [51.90597846977058]
Video-SafetyBenchは、ビデオテキスト攻撃下でのLVLMの安全性を評価するために設計された最初のベンチマークである。ビデオテキストのペアは2,264で、48のきめ細かいアンセーフなカテゴリにまたがっている。安全性評価のためのセマンティックなビデオを生成するために,ビデオ意味論を主題画像とモーションテキストに分解する制御可能なパイプラインを設計する。
論文参考訳（メタデータ） (2025-05-17T05:06:38Z)
One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models [20.42976162135529]
大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
論文参考訳（メタデータ） (2025-05-12T01:26:50Z)
Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models [34.66687625996389]
汎用AIアシスタントの開発にはMLLM(Multimodal large language model)が不可欠である。差別、誤報、倫理基準違反などの望ましくない行動を防止するために、MLLMが安全に整列されていることをどうやって保証できるのか。安全性と安全性を共同で最適化する,初のマルチモーダル安全アライメントフレームワークであるSafe RLHF-Vを提案する。
論文参考訳（メタデータ） (2025-03-22T07:40:20Z)
Maybe I Should Not Answer That, but... Do LLMs Understand The Safety of Their Inputs? [0.836362570897926]
このような一般化のための既存手法について検討し、それらが不十分であることを示す。性能劣化を回避し、安全な性能を維持するために、我々は2段階のフレームワークを提唱する。最後のトークンに対する最後の隠れ状態は、堅牢なパフォーマンスを提供するのに十分であることがわかった。
論文参考訳（メタデータ） (2025-02-22T10:31:50Z)
Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。 MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。 MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文参考訳（メタデータ） (2025-02-16T16:12:40Z)
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文参考訳（メタデータ） (2025-02-03T04:23:33Z)
MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文参考訳（メタデータ） (2024-12-31T00:06:04Z)
RapGuard: Safeguarding Multimodal Large Language Models via Rationale-aware Defensive Prompting [7.0595410083835315]
RapGuardは、シナリオ固有の安全プロンプトを生成するために、マルチモーダル連鎖推論を使用する新しいフレームワークである。 RapGuardは最先端の安全性能を実現し、応答の品質を低下させることなく有害なコンテンツを著しく削減する。
論文参考訳（メタデータ） (2024-12-25T08:31:53Z)
SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文参考訳（メタデータ） (2024-10-29T11:47:01Z)
ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文参考訳（メタデータ） (2024-10-09T07:21:43Z)
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文参考訳（メタデータ） (2024-09-17T17:14:41Z)
ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文参考訳（メタデータ） (2024-07-31T17:48:14Z)
PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing [1.474945380093949]
推論時ガードレール(ITG)は、モデルの出力分布をコンプライアンスにシフトするソリューションを提供する。現在の手法は安全性と利便性のバランスをとるのに苦労している。構造化制御フローを利用した新しいITG手法であるPrimeGuardを提案する。
論文参考訳（メタデータ） (2024-07-23T09:14:27Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models [39.15695612766001]
T2VSafetyBenchは,テキスト・ビデオモデルの安全性評価のための新しいベンチマークである。ビデオ生成の安全性に関する12の重要な側面を定義し,悪意のあるプロンプトデータセットを構築する。異なるモデルは様々な強みを示す。テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。
論文参考訳（メタデータ） (2024-07-08T14:04:58Z)
Towards Comprehensive and Efficient Post Safety Alignment of Large Language Models via Safety Patching [77.36097118561057]
textscSafePatchingは包括的で効率的なPSAのための新しいフレームワークである。 textscSafePatchingはベースラインメソッドよりも包括的で効率的なPSAを実現する。
論文参考訳（メタデータ） (2024-05-22T16:51:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。