Fugu-MT 論文翻訳(概要): HyCoVAD: A Hybrid SSL-LLM Model for Complex Video Anomaly Detection

論文の概要: HyCoVAD: A Hybrid SSL-LLM Model for Complex Video Anomaly Detection

arxiv url: http://arxiv.org/abs/2509.22544v1
Date: Fri, 26 Sep 2025 16:20:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-29 20:57:54.579454
Title: HyCoVAD: A Hybrid SSL-LLM Model for Complex Video Anomaly Detection
Title（参考訳）: HyCoVAD:複雑なビデオ異常検出のためのハイブリッドSSL-LLMモデル
Authors: Mohammad Mahdi Hemmatyar, Mahdi Jafari, Mohammad Amin Yousefi, Mohammad Reza Nemati, Mobin Azadani, Hamid Reza Rastad, Amirmohammad Akbari,
Abstract要約: ビデオ異常検出(VAD)はインテリジェントな監視には不可欠だが、複雑な異常を識別することが大きな課題である。マルチタスク SSL 時間解析器と LLM バリデータを組み合わせたハイブリッド SSL-LLM モデルである HyVAD を導入する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video anomaly detection (VAD) is crucial for intelligent surveillance, but a significant challenge lies in identifying complex anomalies, which are events defined by intricate relationships and temporal dependencies among multiple entities rather than by isolated actions. While self-supervised learning (SSL) methods effectively model low-level spatiotemporal patterns, they often struggle to grasp the semantic meaning of these interactions. Conversely, large language models (LLMs) offer powerful contextual reasoning but are computationally expensive for frame-by-frame analysis and lack fine-grained spatial localization. We introduce HyCoVAD, Hybrid Complex Video Anomaly Detection, a hybrid SSL-LLM model that combines a multi-task SSL temporal analyzer with LLM validator. The SSL module is built upon an nnFormer backbone which is a transformer-based model for image segmentation. It is trained with multiple proxy tasks, learns from video frames to identify those suspected of anomaly. The selected frames are then forwarded to the LLM, which enriches the analysis with semantic context by applying structured, rule-based reasoning to validate the presence of anomalies. Experiments on the challenging ComplexVAD dataset show that HyCoVAD achieves a 72.5% frame-level AUC, outperforming existing baselines by 12.5% while reducing LLM computation. We release our interaction anomaly taxonomy, adaptive thresholding protocol, and code to facilitate future research in complex VAD scenarios.
Abstract（参考訳）: ビデオ異常検出(VAD)はインテリジェントな監視には不可欠だが、複雑な異常を特定することが大きな課題である。自己教師付き学習(SSL)手法は、低レベルの時空間パターンを効果的にモデル化するが、これらの相互作用の意味を理解するのに苦労することが多い。逆に、大規模言語モデル(LLM)は、強力な文脈推論を提供するが、フレーム単位の分析には計算コストがかかり、きめ細かい空間的ローカライゼーションが欠如している。マルチタスク SSL 時間解析器と LLM バリデータを組み合わせたハイブリッド SSL-LLM モデルであるHyCoVAD を導入する。 SSLモジュールは、イメージセグメンテーションのためのトランスフォーマーベースのモデルであるnnFormerのバックボーン上に構築されている。複数のプロキシタスクでトレーニングされ、ビデオフレームから学習して、異常の疑いのある人を特定する。選択されたフレームはLSMに転送され、構造化されたルールベースの推論を適用して、異常の有無を検証することによって、意味的コンテキストによる分析を充実させる。 ComplexVADデータセットの実験によると、HyCoVADは72.5%のフレームレベルAUCを実現し、既存のベースラインを12.5%上回り、LLM計算を削減している。我々は、複雑なVADシナリオにおける将来の研究を促進するために、我々の相互作用異常分類、適応しきい値プロトコル、およびコードをリリースする。

関連論文リスト

CALM: A Framework for Continuous, Adaptive, and LLM-Mediated Anomaly Detection in Time-Series Streams [0.42970700836450476]
本稿では,リアルタイム異常検出のための新しいエンドツーエンドフレームワークであるCALMを紹介する。 CALMはApache Beam分散処理フレームワーク上に構築されている。クローズドループで連続的な微調整機構を実装し、異常検出モデルがほぼリアルタイムで進化するデータパターンに適応できるようにする。
論文参考訳（メタデータ） (2025-08-29T00:27:35Z)
Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning [12.054910727620154]
視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-24T09:49:53Z)
Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文参考訳（メタデータ） (2025-03-06T07:01:08Z)
Real-Time Anomaly Detection in Video Streams [0.0]
この論文は、Othello社とIASD研究所との間のCIFRE協定の一部である。目的は、ビデオストリーム内のリアルタイムな危険を検出する人工知能システムを開発することである。
論文参考訳（メタデータ） (2024-11-29T14:24:33Z)
DeforestVis: Behavior Analysis of Machine Learning Models with Surrogate Decision Stumps [46.58231605323107]
複雑なMLモデルの振る舞いを要約する視覚解析ツールであるDeforestVisを提案する。 DeforestVisは、より多くの切り株をインクリメンタルに生成することで、複雑さとフィデリティのトレードオフを探索するのに役立つ。 DeforestVisの適用性と有用性について,2つのユースケースと,データアナリストとモデル開発者とのエキスパートインタビューで紹介する。
論文参考訳（メタデータ） (2023-03-31T21:17:15Z)
Multiplex-detection Based Multiple Instance Learning Network for Whole Slide Image Classification [2.61155594652503]
マルチ・インスタンス・ラーニング(MIL)は、診断病理のためのスライド画像全体(WSI)を分類する強力な手法である。本稿では,上記の問題に対処するために,MDMIL(Multiple-detection-based multiple instance learning)を提案する。具体的には、MDMILは内部クエリ生成モジュール(IQGM)と多重検出モジュール(MDM)によって構成される。
論文参考訳（メタデータ） (2022-08-06T14:36:48Z)
Bayesian Nonparametric Submodular Video Partition for Robust Anomaly Detection [9.145168943972067]
MIL(Multiple-instance Learning)は、ビデオ異常検出問題に対処するための効果的な方法である。我々は,MILモデルトレーニングを大幅に改善するために,新しいベイズ非パラメトリックサブモジュールビデオ分割(BN-SVP)を提案する。我々の理論解析は,提案アルゴリズムの性能保証を確実にする。
論文参考訳（メタデータ） (2022-03-24T04:00:49Z)
Adaptive Memory Networks with Self-supervised Learning for Unsupervised Anomaly Detection [54.76993389109327]
教師なし異常検出は、通常のデータのみをトレーニングすることで、目に見えない異常を検出するモデルを構築することを目的としている。本稿では,これらの課題に対処するために,自己教師付き学習(AMSL)を用いた適応記憶ネットワーク(Adaptive Memory Network)を提案する。 AMSLには、一般的な正規パターンを学ぶための自己教師付き学習モジュールと、リッチな特徴表現を学ぶための適応型メモリ融合モジュールが組み込まれている。
論文参考訳（メタデータ） (2022-01-03T03:40:21Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。