Fugu-MT 論文翻訳(概要): The Evolution of Video Anomaly Detection: A Unified Framework from DNN to MLLM

論文の概要: The Evolution of Video Anomaly Detection: A Unified Framework from DNN to MLLM

arxiv url: http://arxiv.org/abs/2507.21649v1
Date: Tue, 29 Jul 2025 10:07:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 17:08:55.974899
Title: The Evolution of Video Anomaly Detection: A Unified Framework from DNN to MLLM
Title（参考訳）: ビデオ異常検出の進化:DNNからMLLMへの統一フレームワーク
Authors: Shibo Gao, Peipei Yang, Haiyang Guo, Yangyang Liu, Yi Chen, Shuai Li, Han Zhu, Jian Xu, Xu-Yao Zhang, Linlin Huang,
Abstract要約: ビデオ異常検出(VAD)は、ビデオ内の異常な行動や出来事を特定し、接地することを目的としている。深層モデルアーキテクチャの継続的な進化は、VAD方法論の革新を促した。 MLLM(Multi-modal large language)とLLM(Large Language Model)の急速な開発により、VAD分野に新たな機会と課題がもたらされた。
参考スコア（独自算出の注目度）: 27.800308082023285
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video anomaly detection (VAD) aims to identify and ground anomalous behaviors or events in videos, serving as a core technology in the fields of intelligent surveillance and public safety. With the advancement of deep learning, the continuous evolution of deep model architectures has driven innovation in VAD methodologies, significantly enhancing feature representation and scene adaptability, thereby improving algorithm generalization and expanding application boundaries. More importantly, the rapid development of multi-modal large language (MLLMs) and large language models (LLMs) has introduced new opportunities and challenges to the VAD field. Under the support of MLLMs and LLMs, VAD has undergone significant transformations in terms of data annotation, input modalities, model architectures, and task objectives. The surge in publications and the evolution of tasks have created an urgent need for systematic reviews of recent advancements. This paper presents the first comprehensive survey analyzing VAD methods based on MLLMs and LLMs, providing an in-depth discussion of the changes occurring in the VAD field in the era of large models and their underlying causes. Additionally, this paper proposes a unified framework that encompasses both deep neural network (DNN)-based and LLM-based VAD methods, offering a thorough analysis of the new VAD paradigms empowered by LLMs, constructing a classification system, and comparing their strengths and weaknesses. Building on this foundation, this paper focuses on current VAD methods based on MLLMs/LLMs. Finally, based on the trajectory of technological advancements and existing bottlenecks, this paper distills key challenges and outlines future research directions, offering guidance for the VAD community.
Abstract（参考訳）: ビデオ異常検出(VAD)は、インテリジェントな監視と公衆安全の分野における中核となる技術として機能し、ビデオ内の異常な行動や出来事を特定し、根絶することを目的としている。ディープラーニングの進歩により、深層モデルアーキテクチャの継続的な進化は、VAD手法の革新を駆り立て、特徴表現とシーン適応性を大幅に向上させ、アルゴリズムの一般化とアプリケーション境界の拡張を実現した。さらに重要なのは、マルチモーダルな大言語(MLLM)と大規模言語モデル(LLM)の急速な開発により、VAD分野に新たな機会と課題がもたらされたことだ。 MLLM と LLM のサポートの下で、VAD はデータアノテーション、入力モダリティ、モデルアーキテクチャ、タスクの目的といった面で重要な変換を受けてきた。出版物の増加とタスクの進化により、最近の進歩の体系的なレビューが緊急に必要となってきた。本稿では,MLLM と LLM をベースとしたVAD 手法の総合的解析を行い,大モデル時代のVAD 分野における変化とその根本原因について詳細に考察する。さらに,本論文では,深層ニューラルネットワーク(DNN)とLLMに基づくVAD手法の両方を包含する統合フレームワークを提案し,LLMが権限を持つ新しいVADパラダイムを徹底的に分析し,分類システムを構築し,その強みと弱点を比較する。本稿では,MLLM/LLMをベースとした現在のVAD手法について述べる。最後に, 技術進歩の軌跡と既存のボトルネックに基づいて, 重要な課題を抽出し, 今後の研究方向性を概説し, VADコミュニティへのガイダンスを提供する。

関連論文リスト

Multimodal Information Fusion for Chart Understanding: A Survey of MLLMs -- Evolution, Limitations, and Cognitive Enhancement [25.08967298618286]
MLLM(Multimodal Large Language Models)は、チャート情報融合を変換する。本調査は,MLLMがグラフ情報融合をどのように変換しているかを構造化された理解を得ることを目的としている。
論文参考訳（メタデータ） (2026-02-08T12:59:50Z)
Object Detection with Multimodal Large Vision-Language Models: An In-depth Review [3.2882817259131403]
大規模視覚言語モデル(LVLM)における言語と視覚の融合は、ディープラーニングに基づく物体検出に革命をもたらした。この詳細なレビューでは、LVLMの最先端技術に関する構造化された調査が紹介されている。
論文参考訳（メタデータ） (2025-08-25T17:21:00Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
A Survey on Diffusion Language Models [30.00199970146068]
拡散言語モデル(DLM)は、支配的な自己回帰(AR)パラダイムの代替である。 DLMは、推論遅延を減らし、双方向のコンテキストをキャプチャすることに固有の利点がある。近年の進歩により、DLMは自己回帰に匹敵する性能を示すようになった。
論文参考訳（メタデータ） (2025-08-14T17:47:22Z)
Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文参考訳（メタデータ） (2025-07-21T10:52:14Z)
Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
Large Language Models in Argument Mining: A Survey [15.041650203089057]
Argument Mining (AM) はテキストから議論的構造を抽出することに焦点を当てている。 LLM(Large Language Models)の出現は、AMを大きく変化させ、高度な文脈内学習を可能にした。本研究は, LLM駆動型AMの最近の進歩を体系的に合成する。
論文参考訳（メタデータ） (2025-06-19T15:12:58Z)
Discrete Diffusion in Large Language and Multimodal Models: A Survey [56.31088116526825]
離散拡散言語モデル(dLLM)と離散拡散多モード言語モデル(dMLLM)の体系的調査を提供する。自己回帰(AR)モデルとは異なり、dLLMとdMLLMはマルチトークンの並列デコードパラダイムを採用している。我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、代表モデルを分類する。
論文参考訳（メタデータ） (2025-06-16T17:59:08Z)
Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文参考訳（メタデータ） (2025-03-06T15:29:13Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
A Survey of Model Architectures in Information Retrieval [59.61734783818073]
2019年から現在までの期間は、情報検索(IR)と自然言語処理(NLP)における最大のパラダイムシフトの1つとなっている。従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。今後の課題と今後の方向性について、先見的な議論で締めくくります。
論文参考訳（メタデータ） (2025-02-20T18:42:58Z)
Advancements in Visual Language Models for Remote Sensing: Datasets, Capabilities, and Enhancement Techniques [6.783762650831429]
本稿では、視覚言語モデル(VLM)に関する基礎理論と、リモートセンシングで構築されたデータセットについて概観する。本稿では,VLMのコアコンポーネントに基づいて,改善手法を3つの主要部品に分類し,それらの方法の詳細な紹介と比較を行う。
論文参考訳（メタデータ） (2024-10-15T13:28:55Z)
Surveying the MLLM Landscape: A Meta-Review of Current Surveys [17.372501468675303]
MLLM(Multimodal Large Language Models)は、人工知能分野における変革の原動力となっている。本研究の目的は,MLLMのベンチマークテストと評価方法の体系的レビューを提供することである。
論文参考訳（メタデータ） (2024-09-17T14:35:38Z)
A critical review of methods and challenges in large language models [6.850038413666062]
大規模言語モデル(LLM)の詳細な分析についてリカレントニューラルネットワーク(RNN)からトランスフォーマーモデルへの進化を検査する。コンテキスト内学習や様々な微調整アプローチといった最先端のテクニックを記述します。
論文参考訳（メタデータ） (2024-04-18T08:01:20Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文参考訳（メタデータ） (2024-02-20T18:57:34Z)
Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems [13.670262880851537]
生成型大規模言語モデル(LLM)が最前線に立ち、データとのインタラクション方法に革命をもたらします。しかし、これらのモデルをデプロイする際の計算強度とメモリ消費は、効率性の観点から大きな課題を呈している。本研究は,機械学習システム(MLSys)研究の観点から,効率的なLCM提供手法の必要性について考察する。
論文参考訳（メタデータ） (2023-12-23T11:57:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。