論文の概要: DVD: A Comprehensive Dataset for Advancing Violence Detection in Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2506.05372v1
- Date: Thu, 29 May 2025 01:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:19.017147
- Title: DVD: A Comprehensive Dataset for Advancing Violence Detection in Real-World Scenarios
- Title(参考訳): DVD:実世界のシナリオにおけるバイオレンス検出のための包括的データセット
- Authors: Dimitrios Kollias, Damith C. Senadeera, Jianian Zheng, Kaushal K. K. Yadav, Greg Slabaugh, Muhammad Awais, Xiaoyun Yang,
- Abstract要約: バイオレンス検出(VD)は、ますます重要な研究領域となっている。
既存の自動化されたVD作業は、多種多様な注釈付きデータベースの可用性の制限によって妨げられている。
大規模(500本のビデオ、2.7Mフレーム)のDVDや、様々な環境を持つフレームレベルの注釈付きVDデータベースを紹介します。
- 参考スコア(独自算出の注目度): 19.652923453423348
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Violence Detection (VD) has become an increasingly vital area of research. Existing automated VD efforts are hindered by the limited availability of diverse, well-annotated databases. Existing databases suffer from coarse video-level annotations, limited scale and diversity, and lack of metadata, restricting the generalization of models. To address these challenges, we introduce DVD, a large-scale (500 videos, 2.7M frames), frame-level annotated VD database with diverse environments, varying lighting conditions, multiple camera sources, complex social interactions, and rich metadata. DVD is designed to capture the complexities of real-world violent events.
- Abstract(参考訳): バイオレンス検出(VD)は、ますます重要な研究領域となっている。
既存の自動化されたVD作業は、多種多様な注釈付きデータベースの可用性の制限によって妨げられている。
既存のデータベースは、粗いビデオレベルのアノテーション、限られたスケールと多様性、メタデータの欠如に悩まされており、モデルの一般化が制限されている。
これらの課題に対処するために、DVD、大規模(500本のビデオ、2.7Mフレーム)、様々な環境、様々な照明条件、複数のカメラソース、複雑な社会的相互作用、豊富なメタデータを備えたフレームレベルの注釈付きVDデータベースを導入する。
DVDは、現実世界の暴力的な出来事の複雑さを捉えるように設計されている。
関連論文リスト
- Towards Scalable Video Anomaly Retrieval: A Synthetic Video-Text Benchmark [26.948237287675116]
ビデオ異常検索は、自然言語クエリを用いてビデオ内の異常事象をローカライズし、公衆の安全を促進することを目的としている。
既存のデータセットは、現実世界の異常の長い尾の性質と、大規模な収集を妨げるプライバシーの制約によって、データの不足に悩まされている。
SVTA(Synthetic Video-Text Anomaly benchmark)は,クロスモーダルな異常検索のための大規模なデータセットである。
論文 参考訳(メタデータ) (2025-06-02T09:23:58Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [63.82450803014141]
長時間の映像理解は時間空間の複雑さによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discoveryエージェントを提案する。
我々のDVDエージェントはSOTA性能を達成し,LVBenchデータセットの先行処理をはるかに上回っている。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z) - A Video-grounded Dialogue Dataset and Metric for Event-driven Activities [10.468747345147106]
本稿では,イベント駆動活動のビデオ地上対話のためのデータセットであるVDActについて述べる。
VDActには、さまざまなイベント駆動アクティビティを記述する、より長くより複雑なビデオシーケンスが含まれている。
データセットは3000の対話と30,000以上の質問と回答のペアで構成され、多様なアクティビティシナリオを持つ1,000のビデオから導かれる。
論文 参考訳(メタデータ) (2025-01-30T13:11:19Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Described Spatial-Temporal Video Detection [33.69632963941608]
空間時間ビデオグラウンドティング(STVG)は、各フレーム内の1つの既存のオブジェクトのみを検出するように定式化される。
本研究では,STVGを空間時空間ビデオ検出(DSTVD)と呼ばれるより実用的な環境に進める。
DVD-STは、クェリに応答してビデオ上のオブジェクトから多数のオブジェクトへのグラウンドングをサポートする。
論文 参考訳(メタデータ) (2024-07-08T04:54:39Z) - DreamFrame: Enhancing Video Understanding via Automatically Generated QA and Style-Consistent Keyframes [11.2645921649719]
最近の視覚言語モデル(LVLM)は、主にオンラインプラットフォームから抽出された様々なスクレイピングによって微調整されている。
現在のLVLMは主に、広範囲で汎用的な設定で既存のデータセットでトレーニングされているが、特定のダウンストリームシナリオに適応することは依然として難しい。
そこで我々はDreamFrameという3段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-03T07:43:39Z) - Deep Learning for Video-based Person Re-Identification: A Survey [1.6317061277457001]
本稿では,ビデオリIDのためのディープラーニング手法の最新の進歩について紹介する。
制限付きの短いビデオリIDメソッド、技術的な課題による大きなマイルストーン、アーキテクチャ設計などについて説明する。
論文 参考訳(メタデータ) (2023-03-21T05:50:53Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。