論文の概要: ERA: A Dataset and Deep Learning Benchmark for Event Recognition in
Aerial Videos
- arxiv url: http://arxiv.org/abs/2001.11394v4
- Date: Thu, 25 Jun 2020 10:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 12:30:34.960976
- Title: ERA: A Dataset and Deep Learning Benchmark for Event Recognition in
Aerial Videos
- Title(参考訳): ERA: 空中ビデオにおけるイベント認識のためのデータセットとディープラーニングベンチマーク
- Authors: Lichao Mou, Yuansheng Hua, Pu Jin, Xiao Xiang Zhu
- Abstract要約: 本稿では,遠隔センシングコミュニティにおける非拘束空中ビデオにおけるイベント認識の新たな課題について紹介する。
ERA(Event Recognition in Aerial Video)という,大規模で人間による注釈付きデータセットを提案する。
ERAデータセットは、クラス内の大きなバリエーションとクラス間の類似性を持つように設計されている。
- 参考スコア(独自算出の注目度): 28.598710179447803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Along with the increasing use of unmanned aerial vehicles (UAVs), large
volumes of aerial videos have been produced. It is unrealistic for humans to
screen such big data and understand their contents. Hence methodological
research on the automatic understanding of UAV videos is of paramount
importance. In this paper, we introduce a novel problem of event recognition in
unconstrained aerial videos in the remote sensing community and present a
large-scale, human-annotated dataset, named ERA (Event Recognition in Aerial
videos), consisting of 2,864 videos each with a label from 25 different classes
corresponding to an event unfolding 5 seconds. The ERA dataset is designed to
have a significant intra-class variation and inter-class similarity and
captures dynamic events in various circumstances and at dramatically various
scales. Moreover, to offer a benchmark for this task, we extensively validate
existing deep networks. We expect that the ERA dataset will facilitate further
progress in automatic aerial video comprehension. The website is
https://lcmou.github.io/ERA_Dataset/
- Abstract(参考訳): 無人航空機(UAV)の使用の増加とともに、大量の空中ビデオが制作されている。
人間がそのようなビッグデータを映し出し、その内容を理解することは現実的ではない。
したがって、uavビデオの自動理解に関する方法論研究が重要である。
本稿では,リモートセンシングコミュニティにおける非拘束型空中ビデオにおけるイベント認識の新たな問題を紹介し,イベント展開5秒に対応する25クラスのラベル付き2,864本のビデオからなる,ERA(Event Recognition in Aerial video)という,大規模で人間による注釈付きデータセットを提案する。
ERAデータセットは、クラス内の大きな変動とクラス間の類似性を持ち、様々な状況および劇的に異なるスケールで動的イベントをキャプチャするように設計されている。
さらに、このタスクのベンチマークを提供するため、既存のディープネットワークを広範囲に検証します。
eraデータセットは、自動空中ビデオ理解のさらなる進歩を促進することを期待している。
ウェブサイトはhttps://lcmou.github.io/ERA_Dataset/
関連論文リスト
- Towards Student Actions in Classroom Scenes: New Dataset and Baseline [43.268586725768465]
複雑な教室シーンを対象とした,SAV(Multi-label student action video)データセットを提案する。
データセットは、758の教室から、4,324の慎重にトリミングされたビデオクリップで構成され、それぞれに15の教室で生徒が表示するアクションがラベル付けされている。
論文 参考訳(メタデータ) (2024-09-02T03:44:24Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Anomaly Detection in Aerial Videos with Transformers [49.011385492802674]
我々は、空中ビデオの異常検出のための新しいデータセットDroneAnomalyを作成します。
87,488色のビデオフレーム(トレーニング用51,635フレーム、テスト用35,853フレーム)があり、サイズは640×640ドル/秒である。
本稿では,連続するビデオフレームを一連のチューブレットとして扱う新しいベースラインモデルAnomaly Detection with Transformers (ANDT)を提案する。
論文 参考訳(メタデータ) (2022-09-25T21:24:18Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Human in Events: A Large-Scale Benchmark for Human-centric Video
Analysis in Complex Events [106.19047816743988]
我々は、Human-in-Events(Human-in-Events)またはHiEve(HiEve)という、包括的なアノテーションを備えた新しい大規模データセットを提案する。
これには、複雑なイベントにおけるアクションインスタンスの最大数(>56k)と、長時間続くトラジェクトリの最大数(>1M)が含まれている。
多様なアノテーションに基づいて、アクション認識とポーズ推定のための2つのシンプルなベースラインを提示する。
論文 参考訳(メタデータ) (2020-05-09T18:24:52Z) - AU-AIR: A Multi-modal Unmanned Aerial Vehicle Dataset for Low Altitude
Traffic Surveillance [20.318367304051176]
カメラを搭載した無人航空機(UAV)は、空中(バードビュー)画像を撮影する利点がある。
オブジェクトアノテーションによる視覚データを含む、いくつかの空中データセットが導入されている。
本研究では,実環境下で収集されたマルチモーダルセンサデータを有する多目的航空データセット(AU-AIR)を提案する。
論文 参考訳(メタデータ) (2020-01-31T09:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。