論文の概要: VIDI: A Video Dataset of Incidents
- arxiv url: http://arxiv.org/abs/2205.13277v1
- Date: Thu, 26 May 2022 11:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 14:33:00.867306
- Title: VIDI: A Video Dataset of Incidents
- Title(参考訳): VIDI: インシデントのビデオデータセット
- Authors: Duygu Sesver, Alp Eren Gen\c{c}o\u{g}lu, \c{C}a\u{g}r{\i} Emre
Y{\i}ld{\i}z, Zehra G\"unindi, Faeze Habibi, Ziya Ata Yaz{\i}c{\i}, Haz{\i}m
Kemal Ekenel
- Abstract要約: 本稿では、43のインシデントカテゴリに対応する4,534のビデオクリップを含むビデオデータセット、ビデオインシデントデータセット(VIDI)を提案する。
多様性を高めるために、ビデオはいくつかの言語で検索されている。
その結果,近年の手法により,事故分類精度が向上していることが判明した。
- 参考スコア(独自算出の注目度): 5.002873541686896
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic detection of natural disasters and incidents has become more
important as a tool for fast response. There have been many studies to detect
incidents using still images and text. However, the number of approaches that
exploit temporal information is rather limited. One of the main reasons for
this is that a diverse video dataset with various incident types does not
exist. To address this need, in this paper we present a video dataset, Video
Dataset of Incidents, VIDI, that contains 4,534 video clips corresponding to 43
incident categories. Each incident class has around 100 videos with a duration
of ten seconds on average. To increase diversity, the videos have been searched
in several languages. To assess the performance of the recent state-of-the-art
approaches, Vision Transformer and TimeSformer, as well as to explore the
contribution of video-based information for incident classification, we
performed benchmark experiments on the VIDI and Incidents Dataset. We have
shown that the recent methods improve the incident classification accuracy. We
have found that employing video data is very beneficial for the task. By using
the video data, the top-1 accuracy is increased to 76.56% from 67.37%, which
was obtained using a single frame. VIDI will be made publicly available.
Additional materials can be found at the following link:
https://github.com/vididataset/VIDI.
- Abstract(参考訳): 自然災害やインシデントの自動検出は、迅速な対応ツールとしてより重要になっている。
静止画とテキストを用いてインシデントを検出する研究が数多く行われている。
しかし、時間的情報を利用するアプローチの数は限られている。
この主な理由の1つは、様々なインシデントタイプを持つ多様なビデオデータセットが存在しないことである。
そこで本稿では,映像データセットであるvidi(video dataset of incidents)について,43のインシデントカテゴリに対応する4,534の動画クリップを含む。
各インシデントクラスには、平均10秒間のビデオが100本ほどある。
多様性を高めるために、ビデオはいくつかの言語で検索されている。
近年の最先端技術であるVision TransformerとTimeSformerの性能評価や,インシデント分類のためのビデオベース情報の提供について検討するために,VIDIとインシデントデータセットのベンチマーク実験を行った。
我々は,近年の手法が事故分類精度を向上させることを示した。
ビデオデータを使うことは、そのタスクにとって非常に有益であることが分かりました。
ビデオデータを使用することで、トップ1の精度は67.37%から76.56%に向上し、1フレームで得られた。
VIDIは一般公開される予定だ。
追加資料は以下のリンクで見ることができる。
関連論文リスト
- Cross-Modal Transfer from Memes to Videos: Addressing Data Scarcity in Hateful Video Detection [8.05088621131726]
ビデオベースのヘイトスピーチ検出は、注釈付きデータセットの欠如とビデオアノテーションのコストの高さによって、未発見のままである。
我々は、ヘイトフルなビデオ検出モデルをトレーニングするための代替および強化戦略として、ミームデータセットを活用する。
我々の結果は、常に最先端のベンチマークより優れています。
論文 参考訳(メタデータ) (2025-01-26T07:50:14Z) - A Labelled Dataset for Sentiment Analysis of Videos on YouTube, TikTok, and Other Sources about the 2024 Outbreak of Measles [0.0]
本稿では2024年1月1日から5月31日までに264のウェブサイトで公表された麻疹の流行に関する4011件のビデオデータを含むデータセットを提案する。
YouTubeとTikTokはそれぞれ48.6%と15.2%を占めている。
これらのビデオのそれぞれについて、ビデオのURL、投稿のタイトル、投稿の説明、およびビデオの公開日をデータセット内の別の属性として提示する。
論文 参考訳(メタデータ) (2024-06-11T20:14:22Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Anomaly detection in surveillance videos using transformer based
attention model [3.2968779106235586]
本研究は、トレーニングビデオにおける異常セグメントの注釈付けを避けるために、弱教師付き戦略を用いることを示唆する。
提案するフレームワークは,実世界のデータセット,すなわちShanghaiTech Campusデータセットで検証される。
論文 参考訳(メタデータ) (2022-06-03T12:19:39Z) - VPN: Video Provenance Network for Robust Content Attribution [72.12494245048504]
VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。
完全長あるいは切り離されたビデオクエリを用いて,このようなビデオのマッチングに頑健な検索埋め込みを学習する。
一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
論文 参考訳(メタデータ) (2021-09-21T09:07:05Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - A new Video Synopsis Based Approach Using Stereo Camera [0.5801044612920815]
物体に基づく教師なし学習を用いた新しい異常検出法を開発した。
この方法を用いて、映像データを画素として処理し、その結果をビデオセグメントとして生成する。
私たちが開発したモデルは、単眼カメラとデュアルカメラシステムで別々にテストされ、検証されている。
論文 参考訳(メタデータ) (2021-06-23T12:57:47Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。