論文の概要: Sherlock: Towards Multi-scene Video Abnormal Event Extraction and Localization via a Global-local Spatial-sensitive LLM
- arxiv url: http://arxiv.org/abs/2502.18863v1
- Date: Wed, 26 Feb 2025 06:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:05.350912
- Title: Sherlock: Towards Multi-scene Video Abnormal Event Extraction and Localization via a Global-local Spatial-sensitive LLM
- Title(参考訳): Sherlock: 局所空間感応性LLMによる多場面ビデオ異常イベント抽出と位置決めを目指して
- Authors: Junxiao Ma, Jingjing Wang, Jiamin Luo, Peiying Yu, Guodong Zhou,
- Abstract要約: チャットパラダイムのtextbfMulti-scene Video Abnormal Event extract and Localization (M-VAE) タスクを提案する。
M-VAEタスクは、異常な事象(主題、イベントタイプ、オブジェクト、シーン)を抽出し、そのような事象をローカライズすることを目的としている。
本稿では,Sherlock Holmes(シャーロック・ホームズ)に代表されるグローバルローカルな空間感応型大規模言語モデル(LLM)を提案する。
- 参考スコア(独自算出の注目度): 15.52017541410145
- License:
- Abstract: Prior studies on Video Anomaly Detection (VAD) mainly focus on detecting whether each video frame is abnormal or not in the video, which largely ignore the structured video semantic information (i.e., what, when, and where does the abnormal event happen). With this in mind, we propose a new chat-paradigm \textbf{M}ulti-scene Video Abnormal Event Extraction and Localization (M-VAE) task, aiming to extract the abnormal event quadruples (i.e., subject, event type, object, scene) and localize such event. Further, this paper believes that this new task faces two key challenges, i.e., global-local spatial modeling and global-local spatial balancing. To this end, this paper proposes a Global-local Spatial-sensitive Large Language Model (LLM) named Sherlock, i.e., acting like Sherlock Holmes to track down the criminal events, for this M-VAE task. Specifically, this model designs a Global-local Spatial-enhanced MoE (GSM) module and a Spatial Imbalance Regulator (SIR) to address the two challenges respectively. Extensive experiments on our M-VAE instruction dataset show the significant advantages of Sherlock over several advanced Video-LLMs. This justifies the importance of global-local spatial information for the M-VAE task and the effectiveness of Sherlock in capturing such information.
- Abstract(参考訳): ビデオ異常検出(VAD)に関する先行研究は、主にビデオ内の各ビデオフレームが異常であるか否かを検知することに焦点を当てており、構造化されたビデオ意味情報(例えば、いつ、どこで、どこで異常事象が起こるか)をほとんど無視している。
そこで,本稿では,新たなチャットパラダイムである「textbf{M}ulti-scene Video Abnormal Event extract and Localization (M-VAE)タスクを提案する。
さらに,この課題は,グローバルな空間モデリングとグローバルな空間バランスという,2つの重要な課題に直面すると信じている。
そこで本研究では,このM-VAEタスクにおいて,Sherlock Holmes(シャーロック・ホームズ)のように行動するグローバルローカルな空間感性大言語モデル(LLM)を提案する。
具体的には,GSMモジュールと空間不均衡レギュレータ(SIR)を設計し,それぞれの課題に対処する。
M-VAE命令データセットの大規模な実験は、いくつかの先進的なビデオLLMよりもシャーロックの顕著な利点を示している。
このことは、M-VAEタスクにおけるグローバルな空間情報の重要性と、これらの情報の取得におけるシャーロックの有効性を正当化する。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - UAL-Bench: The First Comprehensive Unusual Activity Localization Benchmark [20.15425745473231]
ビデオにおけるヒューマンエラーや監視インシデントなどの異常な活動のローカライズは、現実的に重要な意味を持つ。
異常な活動のローカライズにおける基礎モデルの能力を探るため,UAL-Benchを紹介する。
UAL-Benchには、UAG-OOPS、UAG-SSBD、UAG-FunQAという3つのビデオデータセットと、OOPS-UAG-Instructというインストラクション・トゥンデータセットがある。
以上の結果から,VLM-LLMアプローチはVid-LLMよりも短時間の異常事象の局所化や開始時刻の予測に優れていた。
論文 参考訳(メタデータ) (2024-10-02T02:33:09Z) - Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video
Localization [85.85582751254785]
この問題に対処するための新しいアプローチをNLVLに提示する。
本手法は, 条件付きデノナイジング拡散プロセスによるグローバル2次元時間マップの直接生成を含む。
提案手法は,クエリとビデオデータの相互作用を様々な時間スケールで効果的にカプセル化する。
論文 参考訳(メタデータ) (2024-01-16T09:33:29Z) - Global-Local MAV Detection under Challenging Conditions based on
Appearance and Motion [27.11400452401168]
本研究では,MAV検出のための動作特徴と外観特徴を融合させるグローバルなMAV検出器を提案する。
提案した検出器の有効性をトレーニングし、検証するために、新しいデータセットが作成される。
特に、この検出器はNVIDIA Jetson NX Xavier上でほぼリアルタイムのフレームレートで動作させることができる。
論文 参考訳(メタデータ) (2023-12-18T08:06:36Z) - Dual Memory Units with Uncertainty Regulation for Weakly Supervised
Video Anomaly Detection [15.991784541576788]
ビデオとセグメントレベルのラベル指向の既存のアプローチは、主に異常データの表現の抽出に重点を置いている。
本研究では、正規データの表現と異常データの識別特徴の両方を学習するために、不確実性制御デュアルメモリユニット(UR-DMU)モデルを提案する。
我々の手法は、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-02-10T10:39:40Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。