論文の概要: The Evolution of Video Anomaly Detection: A Unified Framework from DNN to MLLM
- arxiv url: http://arxiv.org/abs/2507.21649v1
- Date: Tue, 29 Jul 2025 10:07:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.974899
- Title: The Evolution of Video Anomaly Detection: A Unified Framework from DNN to MLLM
- Title(参考訳): ビデオ異常検出の進化:DNNからMLLMへの統一フレームワーク
- Authors: Shibo Gao, Peipei Yang, Haiyang Guo, Yangyang Liu, Yi Chen, Shuai Li, Han Zhu, Jian Xu, Xu-Yao Zhang, Linlin Huang,
- Abstract要約: ビデオ異常検出(VAD)は、ビデオ内の異常な行動や出来事を特定し、接地することを目的としている。
深層モデルアーキテクチャの継続的な進化は、VAD方法論の革新を促した。
MLLM(Multi-modal large language)とLLM(Large Language Model)の急速な開発により、VAD分野に新たな機会と課題がもたらされた。
- 参考スコア(独自算出の注目度): 27.800308082023285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly detection (VAD) aims to identify and ground anomalous behaviors or events in videos, serving as a core technology in the fields of intelligent surveillance and public safety. With the advancement of deep learning, the continuous evolution of deep model architectures has driven innovation in VAD methodologies, significantly enhancing feature representation and scene adaptability, thereby improving algorithm generalization and expanding application boundaries. More importantly, the rapid development of multi-modal large language (MLLMs) and large language models (LLMs) has introduced new opportunities and challenges to the VAD field. Under the support of MLLMs and LLMs, VAD has undergone significant transformations in terms of data annotation, input modalities, model architectures, and task objectives. The surge in publications and the evolution of tasks have created an urgent need for systematic reviews of recent advancements. This paper presents the first comprehensive survey analyzing VAD methods based on MLLMs and LLMs, providing an in-depth discussion of the changes occurring in the VAD field in the era of large models and their underlying causes. Additionally, this paper proposes a unified framework that encompasses both deep neural network (DNN)-based and LLM-based VAD methods, offering a thorough analysis of the new VAD paradigms empowered by LLMs, constructing a classification system, and comparing their strengths and weaknesses. Building on this foundation, this paper focuses on current VAD methods based on MLLMs/LLMs. Finally, based on the trajectory of technological advancements and existing bottlenecks, this paper distills key challenges and outlines future research directions, offering guidance for the VAD community.
- Abstract(参考訳): ビデオ異常検出(VAD)は、インテリジェントな監視と公衆安全の分野における中核となる技術として機能し、ビデオ内の異常な行動や出来事を特定し、根絶することを目的としている。
ディープラーニングの進歩により、深層モデルアーキテクチャの継続的な進化は、VAD手法の革新を駆り立て、特徴表現とシーン適応性を大幅に向上させ、アルゴリズムの一般化とアプリケーション境界の拡張を実現した。
さらに重要なのは、マルチモーダルな大言語(MLLM)と大規模言語モデル(LLM)の急速な開発により、VAD分野に新たな機会と課題がもたらされたことだ。
MLLM と LLM のサポートの下で、VAD はデータアノテーション、入力モダリティ、モデルアーキテクチャ、タスクの目的といった面で重要な変換を受けてきた。
出版物の増加とタスクの進化により、最近の進歩の体系的なレビューが緊急に必要となってきた。
本稿では,MLLM と LLM をベースとしたVAD 手法の総合的解析を行い,大モデル時代のVAD 分野における変化とその根本原因について詳細に考察する。
さらに,本論文では,深層ニューラルネットワーク(DNN)とLLMに基づくVAD手法の両方を包含する統合フレームワークを提案し,LLMが権限を持つ新しいVADパラダイムを徹底的に分析し,分類システムを構築し,その強みと弱点を比較する。
本稿では,MLLM/LLMをベースとした現在のVAD手法について述べる。
最後に, 技術進歩の軌跡と既存のボトルネックに基づいて, 重要な課題を抽出し, 今後の研究方向性を概説し, VADコミュニティへのガイダンスを提供する。
関連論文リスト
- Discrete Diffusion in Large Language and Multimodal Models: A Survey [56.31088116526825]
離散拡散言語モデル(dLLM)と離散拡散多モード言語モデル(dMLLM)の体系的調査を提供する。
自己回帰(AR)モデルとは異なり、dLLMとdMLLMはマルチトークンの並列デコードパラダイムを採用している。
我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、代表モデルを分類する。
論文 参考訳(メタデータ) (2025-06-16T17:59:08Z) - Advancements in Visual Language Models for Remote Sensing: Datasets, Capabilities, and Enhancement Techniques [6.783762650831429]
本稿では、視覚言語モデル(VLM)に関する基礎理論と、リモートセンシングで構築されたデータセットについて概観する。
本稿では,VLMのコアコンポーネントに基づいて,改善手法を3つの主要部品に分類し,それらの方法の詳細な紹介と比較を行う。
論文 参考訳(メタデータ) (2024-10-15T13:28:55Z) - Surveying the MLLM Landscape: A Meta-Review of Current Surveys [17.372501468675303]
MLLM(Multimodal Large Language Models)は、人工知能分野における変革の原動力となっている。
本研究の目的は,MLLMのベンチマークテストと評価方法の体系的レビューを提供することである。
論文 参考訳(メタデータ) (2024-09-17T14:35:38Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems [13.670262880851537]
生成型大規模言語モデル(LLM)が最前線に立ち、データとのインタラクション方法に革命をもたらします。
しかし、これらのモデルをデプロイする際の計算強度とメモリ消費は、効率性の観点から大きな課題を呈している。
本研究は,機械学習システム(MLSys)研究の観点から,効率的なLCM提供手法の必要性について考察する。
論文 参考訳(メタデータ) (2023-12-23T11:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。