論文の概要: SmartHome-Bench: A Comprehensive Benchmark for Video Anomaly Detection in Smart Homes Using Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2506.12992v1
- Date: Sun, 15 Jun 2025 23:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.202204
- Title: SmartHome-Bench: A Comprehensive Benchmark for Video Anomaly Detection in Smart Homes Using Multi-Modal Large Language Models
- Title(参考訳): SmartHome-Bench: マルチモーダル大言語モデルを用いたスマートホームにおけるビデオ異常検出のための総合ベンチマーク
- Authors: Xinyi Zhao, Congjing Zhang, Pei Guo, Wei Li, Lin Chen, Chaoyue Zhao, Shuai Huang,
- Abstract要約: ビデオ異常検出(VAD)は、様々な環境にまたがる異常な事象を特定することによって、安全性と安全性を高めるために不可欠である。
既存のVADベンチマークは主に汎用シナリオ用に設計されている。
スマートホームシナリオでVADを評価するために特別に設計された最初の総合ベンチマークであるSmartHome-Benchを紹介する。
- 参考スコア(独自算出の注目度): 16.459243307731118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly detection (VAD) is essential for enhancing safety and security by identifying unusual events across different environments. Existing VAD benchmarks, however, are primarily designed for general-purpose scenarios, neglecting the specific characteristics of smart home applications. To bridge this gap, we introduce SmartHome-Bench, the first comprehensive benchmark specially designed for evaluating VAD in smart home scenarios, focusing on the capabilities of multi-modal large language models (MLLMs). Our newly proposed benchmark consists of 1,203 videos recorded by smart home cameras, organized according to a novel anomaly taxonomy that includes seven categories, such as Wildlife, Senior Care, and Baby Monitoring. Each video is meticulously annotated with anomaly tags, detailed descriptions, and reasoning. We further investigate adaptation methods for MLLMs in VAD, assessing state-of-the-art closed-source and open-source models with various prompting techniques. Results reveal significant limitations in the current models' ability to detect video anomalies accurately. To address these limitations, we introduce the Taxonomy-Driven Reflective LLM Chain (TRLC), a new LLM chaining framework that achieves a notable 11.62% improvement in detection accuracy. The benchmark dataset and code are publicly available at https://github.com/Xinyi-0724/SmartHome-Bench-LLM.
- Abstract(参考訳): ビデオ異常検出(VAD)は、様々な環境にまたがる異常な事象を特定することによって、安全性と安全性を高めるために不可欠である。
しかし、既存のVADベンチマークは主に汎用シナリオ向けに設計されており、スマートホームアプリケーションの特徴を無視している。
このギャップを埋めるために、スマートホームシナリオにおけるVADを評価するために特別に設計された最初の総合ベンチマークであるSmartHome-Benchを紹介し、マルチモーダルな大規模言語モデル(MLLM)の機能に焦点を当てた。
新たに提案したベンチマークは、スマートホームカメラが記録した1,203本のビデオで構成されており、野生動物、シニアケア、ベイビーモニタリングといった7つのカテゴリを含む、新しい異常分類に従って組織化されている。
各ビデオには、異常タグ、詳細な説明、推論が細心の注意を払ってアノテートされる。
さらに,VADにおけるMLLMの適応手法について検討し,様々なプロンプト技術を用いて,最先端のクローズドソースおよびオープンソースモデルの評価を行った。
結果は、現在のモデルがビデオ異常を正確に検出する能力に重大な制限があることを明らかにする。
これらの制約に対処するため,新しいLCMチェインフレームワークであるTRLC(Taxonomy-Driven Reflective LLM Chain)を導入し,検出精度を11.62%向上した。
ベンチマークデータセットとコードはhttps://github.com/Xinyi-0724/SmartHome-Bench-LLMで公開されている。
関連論文リスト
- MissionGNN: Hierarchical Multimodal GNN-based Weakly Supervised Video Anomaly Recognition with Mission-Specific Knowledge Graph Generation [5.0923114224599555]
ビデオ異常検出とビデオ異常認識は、インテリジェントな監視、証拠調査、暴力警告などの応用において極めて重要である。
これらのタスクは、極めて不均衡なデータと、教師付き学習のための広範囲なフレームレベルのデータアノテーションの非現実性をもたらす異常の出現によって、重大な課題に直面している。
本稿では、最先端の大規模言語モデルと総合知識グラフを活用して、VARにおける弱教師付き学習を効果的に行うことで、これらの課題に対処する新しい階層型グラフニューラルネットワーク(GNN)モデルであるMissionGNNを紹介する。
論文 参考訳(メタデータ) (2024-06-27T01:09:07Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM [35.06386971859359]
Holmes-VADは、正確な時間的監督と豊富なマルチモーダル命令を活用する新しいフレームワークである。
大規模なマルチモーダルVAD命令チューニングベンチマークであるVAD-Instruct50kを構築した。
VAD-Instruct50kデータセットに基づいて、解釈可能なビデオ異常検出のためのカスタマイズされたソリューションを開発する。
論文 参考訳(メタデータ) (2024-06-18T03:19:24Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。