論文の概要: An Analysis Focused on Womens Safety: Can VAD Models Be Enhanced by a Multi-modal Dataset?
- arxiv url: http://arxiv.org/abs/2605.25806v1
- Date: Mon, 25 May 2026 12:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.055043
- Title: An Analysis Focused on Womens Safety: Can VAD Models Be Enhanced by a Multi-modal Dataset?
- Title(参考訳): 女性の安全に焦点をあてた分析 : マルチモーダルデータセットによってVADモデルを拡張できるか?
- Authors: Sangeeta, Maddikuntla Sai Prajwal, Debi Prosad Dogra, Kamalakar Vijay Thakare, Hyungjoo Jung, Ig-Jae Kim, Heeseung Choi,
- Abstract要約: ExtrAnomは、テキスト記述付き1001のビデオ、500の正規および501の異常を含む、新しいマルチモーダルベンチマークである。
ストーカー(3.9%)、チェーンスナッチ(17.6%)、誘拐(7.3%)、暗殺(2.3%)、ハラスメント(18.9%)、正常(50%)などの異常な出来事をカバーしている。
各ビデオには4つのテキストアノテーションが補われており、1つの人間が生成した記述と3つのLDM生成した記述が含まれており、クロスモーダルとVLMベースの検証が可能である。
- 参考スコア(独自算出の注目度): 15.899967533390841
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Women's safety and security are paramount for a modern society. Crimes against women occur in daylight as well as in low-light conditions. Often, such events are captured through real-world surveillance cameras that operate at lower resolutions. Despite substantial progress in CV-related research, video anomaly detection (VAD) focused on women's safety has not yet been adequately addressed. Existing video anomaly datasets contain well-lit, high-resolution, close-shot videos, and fail to represent women-centric anomalies such as chain snatching, stalking, inappropriate touch, and other subtle forms of crime against women. To address these problems, we propose the ExtrAnom dataset, a new multi-modal benchmark containing 1001 videos with textual descriptions, 500 normal and 501 anomalous, classified into 5 different types of women-centric crimes. The dataset comprises low-light (8%), low-resolution videos (13%), long-shot (15%), along with daylight (64%) anomalous videos. And it covers anomalous events like stalking (3.9%), chain snatching (17.6%), kidnapping (7.3%), assassinations (2.3%), harassment (18.9%), and normal (50%). Each video is supplemented with 4 textual annotations, including one human-generated and three LLM-generated descriptions, enabling cross-modal and VLM-based validations. The aim of creating a women-centric dataset is to accurately detect the women-centric anomaly patterns, which are possible to observe visually. The dataset supplements the VLMs to accurately generate video-level descriptions. ExtrAnom has been benchmarked against popular unimodal and multi-modal VAD datasets (e.g., XD-Violence, UCF-Crime, and UCA) and SOTA methods. Experiments reveal that the existing datasets are insufficient to train models for detecting women-centric anomalies.
- Abstract(参考訳): 女性の安全と安全は現代社会にとって最重要課題である。
女性に対する犯罪は日光や低照度で起こる。
多くの場合、このような事象は低解像度で動く現実世界の監視カメラによって捉えられる。
CV関連研究の進歩にもかかわらず、女性の安全に焦点を当てたビデオ異常検出(VAD)はまだ適切に対処されていない。
既存のビデオ異常データセットには、よく照らされた高解像度のクローズショットビデオが含まれており、チェーンスナッチ、ストーキング、不適切なタッチなどの女性中心の異常を表現できない。
これらの問題に対処するため、ExtrAnomデータセットは、テキスト記述付き1001ビデオ、500の正常および501の異常を含む新しいマルチモーダル・ベンチマークであり、5種類の女性中心犯罪に分類される。
データセットは、低照度(8%)、低解像度(13%)、長撮影(15%)、日光(64%)の異常なビデオで構成されている。
また、ストーカー(3.9%)、チェーンスナッチ(17.6%)、誘拐(7.3%)、暗殺(2.3%)、ハラスメント(18.9%)、正常(50%)といった異常な出来事もカバーしている。
各ビデオには4つのテキストアノテーションが補われており、1つの人間が生成した記述と3つのLDM生成した記述が含まれており、クロスモーダルとVLMベースの検証が可能である。
女性中心のデータセットを作成する目的は、視覚的に観察できる女性中心の異常パターンを正確に検出することである。
データセットはVLMを補完し、ビデオレベルの記述を正確に生成する。
ExtrAnomは、一般的なユニモーダルおよびマルチモーダルなVADデータセット(例えば、XD-Violence、UCF-Crime、UCA)とSOTAメソッドに対してベンチマークされている。
実験の結果、既存のデータセットは女性中心の異常を検出するためのモデルを訓練するには不十分であることが判明した。
関連論文リスト
- No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection [15.949619310702579]
オープンワールドシナリオで実行されている既存のビデオ異常検出方法。
主な貢献要因は、限られたデータセットの多様性、文脈に依存した異常なセマンティクスの不十分な理解である。
エンドツーエンドのゼロショットビデオ異常検出フレームワークであるLAVIDAを提案する。
論文 参考訳(メタデータ) (2026-02-22T16:03:43Z) - Towards Scalable Video Anomaly Retrieval: A Synthetic Video-Text Benchmark [26.948237287675116]
ビデオ異常検索は、自然言語クエリを用いてビデオ内の異常事象をローカライズし、公衆の安全を促進することを目的としている。
既存のデータセットは、現実世界の異常の長い尾の性質と、大規模な収集を妨げるプライバシーの制約によって、データの不足に悩まされている。
SVTA(Synthetic Video-Text Anomaly benchmark)は,クロスモーダルな異常検索のための大規模なデータセットである。
論文 参考訳(メタデータ) (2025-06-02T09:23:58Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection [16.77262005540559]
イベントプロンプトから疑わしい異常の学習を導くための新しい枠組みが提案されている。
これにより、新しいマルチプロンプト学習プロセスにより、すべてのビデオの視覚的セマンティックな特徴を制限できる。
提案手法はAPやAUCといった最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-02T10:42:47Z) - A New Comprehensive Benchmark for Semi-supervised Video Anomaly
Detection and Anticipation [46.687762316415096]
我々は,43のシーン,28の異常イベント,16時間の動画を含む新しい包括的データセットNWPU Campusを提案する。
このデータセットは、最大数のシーンとクラスの異常、最長持続時間、シーン依存の異常を考慮に入れた唯一の部分を持つ、最も大きな半教師付きVADデータセットである。
本稿では,異常事象を同時に検出・予測できる新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:20:12Z) - Unsupervised Person Re-Identification with Wireless Positioning under
Weak Scene Labeling [131.18390399368997]
本稿では、弱いシーンラベリングの下で、視覚データと無線位置決めトラジェクトリの両方を用いて、教師なしの人物再識別を探索することを提案する。
具体的には、視覚データと無線情報の相補性をモデル化した、新しい教師なしマルチモーダルトレーニングフレームワーク(UMTF)を提案する。
我々のUMTFには、MMDA(Multimodal Data Association Strategy)とMMGN(Multimodal Graph Neural Network)が含まれている。
論文 参考訳(メタデータ) (2021-10-29T08:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。