Fugu-MT 論文翻訳(概要): Harnessing Large Language Models for Training-free Video Anomaly Detection

論文の概要: Harnessing Large Language Models for Training-free Video Anomaly Detection

arxiv url: http://arxiv.org/abs/2404.01014v1
Date: Mon, 1 Apr 2024 09:34:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 22:56:51.567459
Title: Harnessing Large Language Models for Training-free Video Anomaly Detection
Title（参考訳）: 訓練不要なビデオ異常検出のための大規模言語モデルのハーネス化
Authors: Luca Zanella, Willi Menapace, Massimiliano Mancini, Yiming Wang, Elisa Ricci,
Abstract要約: ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。 Language-based VAD (LAVAD)を提案する。
参考スコア（独自算出の注目度）: 34.76811491190446
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Video anomaly detection (VAD) aims to temporally locate abnormal events in a video. Existing works mostly rely on training deep models to learn the distribution of normality with either video-level supervision, one-class supervision, or in an unsupervised setting. Training-based methods are prone to be domain-specific, thus being costly for practical deployment as any domain change will involve data collection and model training. In this paper, we radically depart from previous efforts and propose LAnguage-based VAD (LAVAD), a method tackling VAD in a novel, training-free paradigm, exploiting the capabilities of pre-trained large language models (LLMs) and existing vision-language models (VLMs). We leverage VLM-based captioning models to generate textual descriptions for each frame of any test video. With the textual scene description, we then devise a prompting mechanism to unlock the capability of LLMs in terms of temporal aggregation and anomaly score estimation, turning LLMs into an effective video anomaly detector. We further leverage modality-aligned VLMs and propose effective techniques based on cross-modal similarity for cleaning noisy captions and refining the LLM-based anomaly scores. We evaluate LAVAD on two large datasets featuring real-world surveillance scenarios (UCF-Crime and XD-Violence), showing that it outperforms both unsupervised and one-class methods without requiring any training or data collection.
Abstract（参考訳）: ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。既存の作品は、ビデオレベルの監督、一級監督、または教師なしの環境での正規性の分布を学ぶために、主に深層モデルの訓練に頼っている。トレーニングベースのメソッドはドメイン固有のものになりがちなので、ドメインの変更によってデータ収集やモデルトレーニングが伴うため、実践的なデプロイメントにはコストがかかる。本稿では,従来の取り組みから脱却し,LAVAD(Language-based VAD)を提案する。LAVADは,事前学習された大規模言語モデル(LLM)と既存の視覚言語モデル(VLM)の能力を生かした,新しい学習自由パラダイムでVADに対処する手法である。我々は、VLMベースのキャプションモデルを利用して、テストビデオの各フレームのテキスト記述を生成する。テキストシーン記述により、時間的アグリゲーションと異常スコア推定の観点からLLMの能力を解き放つためのプロンプト機構を考案し、LLMを効果的なビデオ異常検出器に変える。我々はさらにモダリティに整合したVLMを活用し、ノイズキャプションのクリーニングとLLMに基づく異常スコアの精査のために、モーダル間の類似性に基づく効果的な手法を提案する。実世界の監視シナリオ(UCF-CrimeとXD-Violence)を特徴とする2つの大規模データセット上でのAVADを評価し,トレーニングやデータ収集を必要とせず,教師なし手法と一級手法の両方に優れることを示した。

関連論文リスト

HiProbe-VAD: Video Anomaly Detection via Hidden States Probing in Tuning-Free Multimodal LLMs [8.18063726177317]
ビデオ異常検出(VAD)は、ビデオシーケンス内の通常のパターンから逸脱を識別し、特定することを目的としている。本稿では,VADのための事前学習型マルチモーダル大言語モデル(MLLM)を,微調整を必要とせずに活用する新しいフレームワークであるHiProbe-VADを提案する。
論文参考訳（メタデータ） (2025-07-23T10:41:46Z)
ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。 ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。 ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文参考訳（メタデータ） (2025-05-21T12:29:40Z)
EventVAD: Training-Free Event-Aware Video Anomaly Detection [19.714436150837148]
EventVADはイベント対応のビデオ異常検出フレームワークである。調整された動的グラフアーキテクチャとマルチモーダル・イベント推論を組み合わせる。トレーニング不要な環境での最先端(SOTA)を実現し、7B以上のMLLMを使用する強力なベースラインを上回ります。
論文参考訳（メタデータ） (2025-04-17T16:59:04Z)
Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。 3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文参考訳（メタデータ） (2025-04-02T17:59:57Z)
AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM [1.7051307941715268]
ビデオ異常検出(VAD)は、コンピュータビジョンにおけるビデオ分析と監視に不可欠である。既存のVADモデルは学習された通常のパターンに依存しており、多様な環境に適用することは困難である。本研究では,C-VAD技術とAnyAnomalyモデルを提案する。
論文参考訳（メタデータ） (2025-03-06T14:52:34Z)
Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキストと視覚分岐における表現のアライメントを改善するため,MSTA(Multi-modal Spatio-supervised)を提案する。提案手法の有効性は,ゼロショット転送,少数ショット学習,ベース・ツー・ヴァリアント,完全言語学習の4つの課題にまたがる。
論文参考訳（メタデータ） (2024-11-18T01:25:58Z)
Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-12T03:31:29Z)
Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。 OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文参考訳（メタデータ） (2024-05-17T14:52:47Z)
Test-Time Zero-Shot Temporal Action Localization [58.84919541314969]
ZS-TALは、トレーニング中に目に見えないビデオのアクションを特定し、見つけようとしている。トレーニングベースのZS-TALアプローチは、教師あり学習のためのラベル付きデータの可用性を前提としている。時間的行動ローカライゼーション(T3AL)のためのテスト時間適応を行う新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-08T11:54:49Z)
Video Anomaly Detection and Explanation via Large Language Models [34.52845566893497]
ビデオ異常検出(VAD)は、長距離監視ビデオのタイムライン上で異常事象をローカライズすることを目的としている。本稿では,ビデオベース大規模言語モデル(VLLM)をVADの枠組みで実装するための先駆的な研究を行う。本稿では,長距離コンテキストモデリングにおけるVLLMの可読性を軽減するために,新しいネットワークモジュールLong-Term Context (LTC)を導入する。
論文参考訳（メタデータ） (2024-01-11T07:09:44Z)
Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。 ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文参考訳（メタデータ） (2023-12-28T23:34:43Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。 MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文参考訳（メタデータ） (2022-07-15T17:59:11Z)
Scanflow: A multi-graph framework for Machine Learning workflow management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文参考訳（メタデータ） (2021-11-04T17:01:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。