論文の概要: SafeLens: Deliberate and Efficient Video Guardrails with Fast-and-Slow Screening
- arxiv url: http://arxiv.org/abs/2605.17610v1
- Date: Sun, 17 May 2026 19:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.228492
- Title: SafeLens: Deliberate and Efficient Video Guardrails with Fast-and-Slow Screening
- Title(参考訳): SafeLens: 高速かつスローなスクリーニング機能を備えたビデオガードレール
- Authors: Shahriar Kabir Nahin, Hadi Askari, Muhao Chen, Anshuman Chhabra,
- Abstract要約: 本稿では,高速かつ高精度なコンテンツモデレーションのための高速かつスローな推論アーキテクチャであるSafeLensを提案する。
SafeWatchデータセットにインフルエンス誘導フィルタリングを適用して高品質なデータセットを構築し、元のデータの2.4%しか保持しない。
SafeLensは、現実世界とAIが生成したビデオベンチマーク全体で、最先端のパフォーマンスを達成し、強力なオープンソースのビデオガードレールを上回っている。
- 参考スコア(独自算出の注目度): 29.597821689288963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of online video platforms and AI-generated content has made reliable video guardrails a key challenge for safety and real-world deployment. While most videos can be screened through fast pattern recognition, a small subset requires deeper reasoning over temporally complex content and nuanced policy constraints. Existing approaches typically rely on large vision-language models applied uniformly across all inputs, resulting in high inference costs and inefficient allocation of computation. We propose SafeLens, a video guardrail framework that introduces a fast-and-slow inference architecture for efficient and accurate content moderation with variable computational cost across inputs. Additionally, we construct a high-quality dataset by applying influence-guided filtering to the SafeWatch Dataset, retaining only 2.4% of the original data. To further address limitations of training-time scaling, we enable test-time reasoning by augmenting the filtered data with structured Chain-of-Thought traces. Across real-world and AI-generated video benchmarks, SafeLens achieves state-of-the-art performance, outperforming strong open-source video guardrails (e.g., SafeWatch-8B, OmniGuard-7B) and closed-source models (e.g., GPT-5.4, Gemini-3.1-pro) while significantly reducing inference cost, demonstrating that efficient design serves to be more effective than scaling data or model size alone.
- Abstract(参考訳): オンラインビデオプラットフォームとAI生成コンテンツの急速な成長により、信頼性の高いビデオガードレールは、安全性と現実のデプロイメントにおいて重要な課題となっている。
ほとんどのビデオは高速なパターン認識によってスクリーニングできますが、小さなサブセットでは、時間的に複雑なコンテンツや、曖昧なポリシー制約よりも深い推論が必要です。
既存のアプローチは通常、全ての入力に対して一様に適用された大きな視覚言語モデルに依存し、高い推論コストと計算の非効率な割り当てをもたらす。
本稿では,高速かつスローな推論アーキテクチャを導入し,高速かつ高精度なコンテンツモデレーションを実現するためのビデオガードレールフレームワークであるSafeLensを提案する。
さらに、SafeWatchデータセットにインフルエンサー誘導フィルタリングを適用し、元のデータの2.4%しか保持しない高品質なデータセットを構築した。
トレーニング時間スケーリングの限界にさらに対処するために、構造化されたChain-of-Thoughtトレースでフィルタリングデータを増強することで、テスト時間推論を可能にする。
SafeLensは、実世界およびAI生成のビデオベンチマーク全体で、最先端のパフォーマンスを達成し、強力なオープンソースビデオガードレール(例:SafeWatch-8B、OmniGuard-7B)やクローズドソースモデル(例:GPT-5.4、Gemini-3.1-pro)よりも優れ、推論コストを大幅に削減し、効率的な設計がデータスケーリングやモデルサイズよりも効果的であることを示す。
関連論文リスト
- Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。
視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文 参考訳(メタデータ) (2025-05-22T03:00:39Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。
実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文 参考訳(メタデータ) (2025-03-17T21:13:48Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations [10.451619858527897]
そこで我々は,MLLMをベースとした効率的なビデオガードレールモデルであるSafeWatchを提案する。
すべての安全ポリシーを自動回帰的にエンコードする従来のMLLMベースのガードレールとは異なり、SafeWatchはそれぞれのポリシーチャンクを並列にエンコードする。
さらに、SafeWatchにはポリシー対応のビジュアルトークンプルーニングアルゴリズムが組み込まれており、ポリシーごとに最も関連性の高いビデオトークンを適応的に選択する。
論文 参考訳(メタデータ) (2024-12-09T18:59:04Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。