論文の概要: DeepSVU: Towards In-depth Security-oriented Video Understanding via Unified Physical-world Regularized MoE
- arxiv url: http://arxiv.org/abs/2602.18019v1
- Date: Fri, 20 Feb 2026 06:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.248749
- Title: DeepSVU: Towards In-depth Security-oriented Video Understanding via Unified Physical-world Regularized MoE
- Title(参考訳): DeepSVU:Unified Physical-world Regularized MoEによるセキュリティ指向の深いビデオ理解を目指して
- Authors: Yujie Jin, Wenxin Zhang, Jingjing Wang, Guodong Zhou,
- Abstract要約: 本稿では、新しいチャットパラダイムSVUタスク、すなわち、深層セキュリティ指向ビデオ理解(DeepSVU)を紹介する。
DeepSVUタスクは、脅威の特定と特定だけでなく、脅威セグメントの原因の特定と評価を目的としている。
これらの課題に対処するために,新しい統一物理世界正規化MOE (UPRM) アプローチを提案する。
- 参考スコア(独自算出の注目度): 23.205407917494068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the literature, prior research on Security-oriented Video Understanding (SVU) has predominantly focused on detecting and localize the threats (e.g., shootings, robberies) in videos, while largely lacking the effective capability to generate and evaluate the threat causes. Motivated by these gaps, this paper introduces a new chat paradigm SVU task, i.e., In-depth Security-oriented Video Understanding (DeepSVU), which aims to not only identify and locate the threats but also attribute and evaluate the causes threatening segments. Furthermore, this paper reveals two key challenges in the proposed task: 1) how to effectively model the coarse-to-fine physical-world information (e.g., human behavior, object interactions and background context) to boost the DeepSVU task; and 2) how to adaptively trade off these factors. To tackle these challenges, this paper proposes a new Unified Physical-world Regularized MoE (UPRM) approach. Specifically, UPRM incorporates two key components: the Unified Physical-world Enhanced MoE (UPE) Block and the Physical-world Trade-off Regularizer (PTR), to address the above two challenges, respectively. Extensive experiments conduct on our DeepSVU instructions datasets (i.e., UCF-C instructions and CUVA instructions) demonstrate that UPRM outperforms several advanced Video-LLMs as well as non-VLM approaches. Such information.These justify the importance of the coarse-to-fine physical-world information in the DeepSVU task and demonstrate the effectiveness of our UPRM in capturing such information.
- Abstract(参考訳): 文献において、SVU(Security-oriented Video Understanding)に関する先行研究は、主にビデオ内の脅威(例えば、射撃、強盗)を検出し、ローカライズすることに重点を置いている。
これらのギャップによって動機づけられた本研究では,脅威の特定と特定だけでなく,脅威セグメントの属性と評価を目的とした,深層セキュリティ指向のビデオ理解(DeepSVU)という,新たなチャットパラダイムSVUタスクを導入する。
さらに,提案課題における2つの課題を明らかにした。
1)DeepSVUタスクを増強するために、粗大な物理世界情報(例えば、人間の行動、オブジェクトの相互作用、背景コンテキスト)を効果的にモデル化する方法。
2)これらの要因を適応的に取り除く方法。
これらの課題に対処するために,新しい統一物理世界正規化MOE (UPRM) アプローチを提案する。
具体的には、UPRMは、上記の2つの課題にそれぞれ対処するために、Unified Physical-world Enhanced MoE(UPE)ブロックとPTR(Physical-world Trade-off Regularizer)という2つの重要なコンポーネントを組み込んでいる。
大規模な実験では、DeepSVU命令データセット(UCF-C命令とCUVA命令)を用いて、UPRMがいくつかの高度なビデオ-LLMと非VLMアプローチより優れていることを示す。
このような情報は、DeepSVUタスクにおける粗大な物理世界情報の重要性を正当化し、そのような情報を取得する上でのUPRMの有効性を実証するものである。
関連論文リスト
- T2VAttack: Adversarial Attack on Text-to-Video Diffusion Models [67.13397169618624]
本稿では,テキスト・トゥ・ビデオ(T2V)モデルに対するセマンティックおよび時間的観点からの敵対的攻撃に関する研究であるT2VAttackを紹介する。
提案手法は, 意味的, 時間的クリティカルな単語をプロンプトで識別し, アドレディ検索による同義語に置き換えるT2VAttack-Sと, 最適化された単語を最小の摂動で反復的に挿入するT2VAttack-Iである。
論文 参考訳(メタデータ) (2025-12-30T03:00:46Z) - From Pretrain to Pain: Adversarial Vulnerability of Video Foundation Models Without Task Knowledge [57.379583179331426]
本稿では、ダウンストリームモデルやオープンソースのVFMから微調整されたMLLMを攻撃することによる、新規で実用的な敵の脅威シナリオについて検討する。
本稿では,VFMの時間的表現ダイナミクスを利用して効果的な摂動を発生させる,時間的対応型対向攻撃手法であるTransferable Video Attack (TVA)を提案する。
TVAは高価なサロゲートモデルのトレーニングやドメイン固有のデータへのアクセスを回避し、より実用的で効率的な攻撃戦略を提供する。
論文 参考訳(メタデータ) (2025-11-10T12:42:32Z) - Live-E2T: Real-time Threat Monitoring in Video via Deduplicated Event Reasoning and Chain-of-Thought [15.651072801329425]
Live-E2Tは、リアルタイムパフォーマンスと意思決定説明可能性の要件を統合する新しいフレームワークである。
また,Live-E2Tは,脅威検出精度,リアルタイム効率,説明可能性において,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-09-23T02:53:43Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - A Survey on Vulnerability of Federated Learning: A Learning Algorithm
Perspective [8.941193384980147]
FLシステムの学習プロセスを対象とした脅威モデルに焦点を当てる。
防衛戦略は、特定のメトリクスを使用して悪意のあるクライアントを除外することから進化してきた。
最近の取り組みは、ローカルモデルの最小限の重みを、防御措置をバイパスするために微妙に変更している。
論文 参考訳(メタデータ) (2023-11-27T18:32:08Z) - Physical Adversarial Attack meets Computer Vision: A Decade Survey [55.38113802311365]
本稿では,身体的敵意攻撃の概要を概観する。
本研究は,身体的敵意攻撃の性能を体系的に評価する第一歩を踏み出した。
提案する評価基準であるhiPAAは6つの視点から構成される。
論文 参考訳(メタデータ) (2022-09-30T01:59:53Z) - Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。
2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。
提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T06:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。