Fugu-MT 論文翻訳(概要): Uncovering What, Why and How: A Comprehensive Benchmark for Causation Understanding of Video Anomaly

論文の概要: Uncovering What, Why and How: A Comprehensive Benchmark for Causation Understanding of Video Anomaly

arxiv url: http://arxiv.org/abs/2405.00181v2
Date: Mon, 6 May 2024 14:57:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 20:39:25.974044
Title: Uncovering What, Why and How: A Comprehensive Benchmark for Causation Understanding of Video Anomaly
Title（参考訳）: ビデオ異常の因果理解のための総合的ベンチマーク
Authors: Hang Du, Sicheng Zhang, Binzhu Xie, Guoshun Nan, Jiayang Zhang, Junrui Xu, Hangyu Liu, Sicong Leng, Jiangming Liu, Hehe Fan, Dajiu Huang, Jing Feng, Linli Chen, Can Zhang, Xuhuan Li, Hao Zhang, Jianhang Chen, Qimei Cui, Xiaofeng Tao,
Abstract要約: ビデオ異常の因果理解のためのベンチマーク(CUVA)を提案する。提案されたベンチマークの各インスタンスは、異常の"何"、"なぜ"、"どのように"を示す3つの人間のアノテーションを含んでいる。 MMEvalはCUVAの人間の嗜好に合うように設計された新しい評価基準である。
参考スコア（独自算出の注目度）: 29.822544507594056
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Video anomaly understanding (VAU) aims to automatically comprehend unusual occurrences in videos, thereby enabling various applications such as traffic surveillance and industrial manufacturing. While existing VAU benchmarks primarily concentrate on anomaly detection and localization, our focus is on more practicality, prompting us to raise the following crucial questions: "what anomaly occurred?", "why did it happen?", and "how severe is this abnormal event?". In pursuit of these answers, we present a comprehensive benchmark for Causation Understanding of Video Anomaly (CUVA). Specifically, each instance of the proposed benchmark involves three sets of human annotations to indicate the "what", "why" and "how" of an anomaly, including 1) anomaly type, start and end times, and event descriptions, 2) natural language explanations for the cause of an anomaly, and 3) free text reflecting the effect of the abnormality. In addition, we also introduce MMEval, a novel evaluation metric designed to better align with human preferences for CUVA, facilitating the measurement of existing LLMs in comprehending the underlying cause and corresponding effect of video anomalies. Finally, we propose a novel prompt-based method that can serve as a baseline approach for the challenging CUVA. We conduct extensive experiments to show the superiority of our evaluation metric and the prompt-based approach. Our code and dataset are available at https://github.com/fesvhtr/CUVA.
Abstract（参考訳）: ビデオ異常理解(VAU)は、ビデオにおける異常な事象を自動的に理解することを目的としており、交通監視や工業製造などの様々な応用を可能にする。既存のVAUベンチマークは主に異常検出とローカライゼーションに重点を置いているが、より実践性を重視しており、"異常発生"、"なぜ発生したのか?"、"この異常発生はどの程度深刻なのか? これらの回答を追求するために,ビデオ異常の因果理解のための総合的ベンチマーク(CUVA)を提案する。具体的には、提案されたベンチマークの各インスタンスは、異常の"What"、"why"、"how"の3つのアノテーションセットを含む。 1)異常型,開始時期及び終了時期,及びイベント記述 2 異常の原因に関する自然言語の説明及び 3) 異常の影響を反映した自由テキスト。また,CUVAに対するヒトの嗜好に適合する新しい評価指標であるMMEvalを導入し,ビデオ異常の原因とそれに対応する効果を理解する上で,既存のLCMの測定を容易にする。最後に,挑戦的CUVAのベースラインとして機能する新しいプロンプトベースの手法を提案する。評価基準の優越性と即時的アプローチを示すため,広範囲な実験を行った。私たちのコードとデータセットはhttps://github.com/fesvhtr/CUVA.comで公開されています。

関連論文リスト

VAGU & GtS: LLM-Based Benchmark and Framework for Joint Video Anomaly Grounding and Understanding [22.43740206690383]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定し、その時間間隔を正確に決定することを目的としている。 VAGUは、異常理解と接地を統合する最初のベンチマークである。 Glance then Scrutinize (GtS) はテキストプロンプトでガイドされるトレーニング不要のフレームワークである。また,意味的解釈可能性と時間的精度を共同で評価するJeAUG指標を提案する。
論文参考訳（メタデータ） (2025-07-29T05:17:48Z)
VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning [12.293826084601115]
スマートシティ、セキュリティ監視、災害警報システムには、ビデオの異常理解が不可欠である。異常検出の進歩にもかかわらず、既存の手法は解釈可能性に欠け、異常事象の因果的・文脈的側面を捉えるのに苦労することが多い。マルチモーダル大言語モデル(MLLM)上に構築されたデータ効率のよいフレームワークVAU-R1を導入し,RFT(Reinforcement Fine-Tuning)による異常推論を強化する。
論文参考訳（メタデータ） (2025-05-29T14:48:10Z)
Exploring What Why and How: A Multifaceted Benchmark for Causation Understanding of Video Anomaly [12.896651217314744]
ビデオ異常の因果関係(ECVA)の探索のためのベンチマークを導入する。私たちのベンチマークは慎重に設計されており、各ビデオには詳細な人間のアノテーションが添付されています。本研究では,ECVAのヒト判定基準と密接に整合する特化評価指標であるAnomEvalを提案する。
論文参考訳（メタデータ） (2024-12-10T04:41:44Z)
Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM [35.06386971859359]
Holmes-VADは、正確な時間的監督と豊富なマルチモーダル命令を活用する新しいフレームワークである。大規模なマルチモーダルVAD命令チューニングベンチマークであるVAD-Instruct50kを構築した。 VAD-Instruct50kデータセットに基づいて、解釈可能なビデオ異常検出のためのカスタマイズされたソリューションを開発する。
論文参考訳（メタデータ） (2024-06-18T03:19:24Z)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳（メタデータ） (2024-06-14T17:59:01Z)
A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文参考訳（メタデータ） (2024-06-05T13:40:07Z)
Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection [16.77262005540559]
イベントプロンプトから疑わしい異常の学習を導くための新しい枠組みが提案されている。これにより、新しいマルチプロンプト学習プロセスにより、すべてのビデオの視覚的セマンティックな特徴を制限できる。提案手法はAPやAUCといった最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-03-02T10:42:47Z)
Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文参考訳（メタデータ） (2023-11-13T02:54:17Z)
Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。 Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文参考訳（メタデータ） (2023-07-24T06:22:37Z)
A New Comprehensive Benchmark for Semi-supervised Video Anomaly Detection and Anticipation [46.687762316415096]
我々は,43のシーン,28の異常イベント,16時間の動画を含む新しい包括的データセットNWPU Campusを提案する。このデータセットは、最大数のシーンとクラスの異常、最長持続時間、シーン依存の異常を考慮に入れた唯一の部分を持つ、最も大きな半教師付きVADデータセットである。本稿では,異常事象を同時に検出・予測できる新しいモデルを提案する。
論文参考訳（メタデータ） (2023-05-23T02:20:12Z)
Causalainer: Causal Explainer for Automatic Video Summarization [77.36225634727221]
多くのアプリケーションシナリオにおいて、不適切なビデオ要約は大きな影響を与える可能性がある。説明可能性のモデリングは重要な関心事です。 Causalainerと呼ばれるCausal Explainerがこの問題に対処するために提案されている。
論文参考訳（メタデータ） (2023-04-30T11:42:06Z)
Towards Open Set Video Anomaly Detection [11.944167192592905]
Open Set Video Anomaly Detection (OpenVAD) は、既知の異常と新しい異常の両方が存在するビデオデータから異常事象を識別することを目的としている。本研究では, 深層学習 (EDL) と正規化フロー (NFs) をマルチインスタンス学習 (MIL) フレームワークに統合することにより, オープンVAD 問題に対する弱教師付き手法を開発した。
論文参考訳（メタデータ） (2022-08-23T17:53:34Z)
Self-trained Deep Ordinal Regression for End-to-End Video Anomaly Detection [114.9714355807607]
ビデオ異常検出に自己学習深層順序回帰を適用することで,既存の手法の2つの重要な限界を克服できることを示す。我々は,手動で正規/異常データをラベル付けすることなく,共同表現学習と異常スコアリングを可能にする,エンドツーエンドのトレーニング可能なビデオ異常検出手法を考案した。
論文参考訳（メタデータ） (2020-03-15T08:44:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。