論文の概要: The AVA-Kinetics Localized Human Actions Video Dataset
- arxiv url: http://arxiv.org/abs/2005.00214v2
- Date: Wed, 20 May 2020 17:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:28:31.539901
- Title: The AVA-Kinetics Localized Human Actions Video Dataset
- Title(参考訳): AVA-Kineticsの人間行動ビデオデータセット
- Authors: Ang Li, Meghana Thotakuri, David A. Ross, Jo\~ao Carreira, Alexander
Vostrikov, Andrew Zisserman
- Abstract要約: 本稿では,AVA-Kineticsによる人行動ビデオデータセットについて述べる。
データセットは、AVAアノテーションプロトコルを使用して、Kinetics-700データセットのビデオをアノテートすることで収集される。
データセットには、キーフレーム内の各人間のための80のAVAアクションクラスに注釈付けされた230万以上のクリップが含まれている。
- 参考スコア(独自算出の注目度): 124.41706958756049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the AVA-Kinetics localized human actions video dataset.
The dataset is collected by annotating videos from the Kinetics-700 dataset
using the AVA annotation protocol, and extending the original AVA dataset with
these new AVA annotated Kinetics clips. The dataset contains over 230k clips
annotated with the 80 AVA action classes for each of the humans in key-frames.
We describe the annotation process and provide statistics about the new
dataset. We also include a baseline evaluation using the Video Action
Transformer Network on the AVA-Kinetics dataset, demonstrating improved
performance for action classification on the AVA test set. The dataset can be
downloaded from https://research.google.com/ava/
- Abstract(参考訳): 本稿では,ava-kinetics localized human actions video datasetについて述べる。
データセットは、AVAアノテーションプロトコルを使用して、Kinetics-700データセットのビデオを注釈付けし、これらの新しいAVAアノテーション付きKineticsクリップで元のAVAデータセットを拡張することで収集される。
データセットには、キーフレーム内の各人間のための80のAVAアクションクラスに注釈付けされた230万以上のクリップが含まれている。
アノテーションプロセスを説明し、新しいデータセットに関する統計を提供する。
また,AVA-Kinetics データセット上での Video Action Transformer Network を用いたベースライン評価を行い,AVA テストセットにおけるアクション分類の性能向上を示す。
データセットはhttps://research.google.com/ava/からダウンロードできる。
関連論文リスト
- PHEVA: A Privacy-preserving Human-centric Video Anomaly Detection Dataset [2.473948454680334]
PHEVAは、ピクセル情報を取り除き、識別されていない人間のアノテーションのみを提供することで、個人を識別可能な情報を保護している。
本研究は、10%エラーレート(10ER)を含む総合的なメトリクスセットを用いて、PHEVAの最先端手法をベンチマークする。
この種の最初のものとして、PHEVAは、継続学習ベンチマークを導入することで、従来のトレーニングと実世界のデプロイメントのギャップを埋めるものだ。
論文 参考訳(メタデータ) (2024-08-26T14:55:23Z) - OVR: A Dataset for Open Vocabulary Temporal Repetition Counting in Videos [58.5538620720541]
データセットであるOVRには72Kビデオのアノテーションが含まれている。
OVRは、ビデオの繰り返しのための以前のデータセットよりも桁違いに大きい。
本稿では,ビデオの繰り返しを最大320フレームまでカウントできるベースライントランスフォーマーベースのカウントモデルOVRCounterを提案する。
論文 参考訳(メタデータ) (2024-07-24T08:22:49Z) - TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。
私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。
我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文 参考訳(メタデータ) (2024-05-04T21:55:33Z) - DAM: Dynamic Adapter Merging for Continual Video QA Learning [66.43360542692355]
連続的なビデオ質問応答(VidQA)学習のためのパラメータ効率のよい手法を提案する。
提案手法では,(i)壊滅的忘れを軽減し,(ii)継続的に到着するデータセットへの効率的な適応を可能にし,(iv)類似したデータセットドメイン間の知識共有を可能にする。
我々のDAMモデルは、さまざまなドメインにまたがる6つのVidQAデータセットに対する1.9%の忘れ込みを示しながら、最先端の継続的学習アプローチを9.1%向上させています。
論文 参考訳(メタデータ) (2024-03-13T17:53:47Z) - Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文 参考訳(メタデータ) (2023-11-08T00:56:31Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - MITFAS: Mutual Information based Temporal Feature Alignment and Sampling
for Aerial Video Action Recognition [59.905048445296906]
UAVビデオにおける行動認識のための新しいアプローチを提案する。
我々は、時間領域における人間の行動や動きに対応する領域を計算・調整するために、相互情報の概念を用いる。
実際には、最先端の手法よりもTop-1の精度が18.9%向上している。
論文 参考訳(メタデータ) (2023-03-05T04:05:17Z) - A Short Note on the Kinetics-700-2020 Human Action Dataset [0.0]
我々は、DeepMind Kinetics Human Action datasetの2020年版について述べる。
この新しいバージョンでは、700のクラスごとに異なるYouTubeビデオから、少なくとも700のビデオクリップが提供されている。
論文 参考訳(メタデータ) (2020-10-21T09:47:09Z) - Learning Visual Voice Activity Detection with an Automatically Annotated
Dataset [20.725871972294236]
視覚的音声活動検出(V-VAD)は、人が話しているかどうかを予測するために視覚的特徴を使用する。
本稿では,V-VADのための2つの深いアーキテクチャを提案し,その1つは顔のランドマークに基づくもので,もう1つは光学的流れに基づくものである。
我々は、WildVVADで非常に大きなデータセットを自動生成し、注釈付けするための新しい手法を紹介します。
論文 参考訳(メタデータ) (2020-09-23T15:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。