論文の概要: The AVA-Kinetics Localized Human Actions Video Dataset
- arxiv url: http://arxiv.org/abs/2005.00214v2
- Date: Wed, 20 May 2020 17:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:28:31.539901
- Title: The AVA-Kinetics Localized Human Actions Video Dataset
- Title(参考訳): AVA-Kineticsの人間行動ビデオデータセット
- Authors: Ang Li, Meghana Thotakuri, David A. Ross, Jo\~ao Carreira, Alexander
Vostrikov, Andrew Zisserman
- Abstract要約: 本稿では,AVA-Kineticsによる人行動ビデオデータセットについて述べる。
データセットは、AVAアノテーションプロトコルを使用して、Kinetics-700データセットのビデオをアノテートすることで収集される。
データセットには、キーフレーム内の各人間のための80のAVAアクションクラスに注釈付けされた230万以上のクリップが含まれている。
- 参考スコア(独自算出の注目度): 124.41706958756049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the AVA-Kinetics localized human actions video dataset.
The dataset is collected by annotating videos from the Kinetics-700 dataset
using the AVA annotation protocol, and extending the original AVA dataset with
these new AVA annotated Kinetics clips. The dataset contains over 230k clips
annotated with the 80 AVA action classes for each of the humans in key-frames.
We describe the annotation process and provide statistics about the new
dataset. We also include a baseline evaluation using the Video Action
Transformer Network on the AVA-Kinetics dataset, demonstrating improved
performance for action classification on the AVA test set. The dataset can be
downloaded from https://research.google.com/ava/
- Abstract(参考訳): 本稿では,ava-kinetics localized human actions video datasetについて述べる。
データセットは、AVAアノテーションプロトコルを使用して、Kinetics-700データセットのビデオを注釈付けし、これらの新しいAVAアノテーション付きKineticsクリップで元のAVAデータセットを拡張することで収集される。
データセットには、キーフレーム内の各人間のための80のAVAアクションクラスに注釈付けされた230万以上のクリップが含まれている。
アノテーションプロセスを説明し、新しいデータセットに関する統計を提供する。
また,AVA-Kinetics データセット上での Video Action Transformer Network を用いたベースライン評価を行い,AVA テストセットにおけるアクション分類の性能向上を示す。
データセットはhttps://research.google.com/ava/からダウンロードできる。
関連論文リスト
- DAM: Dynamic Adapter Merging for Continual Video QA Learning [70.39409937771103]
連続的なビデオ質問応答(VidQA)学習のためのパラメータ効率のよい手法を提案する。
提案手法では,(i)壊滅的忘れを軽減し,(ii)継続的に到着するデータセットへの効率的な適応を可能にし,(iv)類似したデータセットドメイン間の知識共有を可能にする。
我々のDAMモデルは、さまざまなドメインにまたがる6つのVidQAデータセットに対する1.9%の忘れ込みを示しながら、最先端の継続的学習アプローチを9.1%向上させています。
論文 参考訳(メタデータ) (2024-03-13T17:53:47Z) - Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文 参考訳(メタデータ) (2023-11-08T00:56:31Z) - VEATIC: Video-based Emotion and Affect Tracking in Context Dataset [34.77364955121413]
私たちは、コンテキストデータセット(VEATIC)におけるビデオベースの感情と感情追跡という、まったく新しい大きなデータセットを導入しました。
VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。
提案するコンピュータビジョンタスクでは,映像フレームのコンテキスト情報と文字情報の両方を用いて,選択した文字の影響を推測する。
論文 参考訳(メタデータ) (2023-09-13T06:31:35Z) - MITFAS: Mutual Information based Temporal Feature Alignment and Sampling
for Aerial Video Action Recognition [59.905048445296906]
UAVビデオにおける行動認識のための新しいアプローチを提案する。
我々は、時間領域における人間の行動や動きに対応する領域を計算・調整するために、相互情報の概念を用いる。
実際には、最先端の手法よりもTop-1の精度が18.9%向上している。
論文 参考訳(メタデータ) (2023-03-05T04:05:17Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [62.265410865423]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - The Role of the Input in Natural Language Video Description [60.03448250024277]
自然言語ビデオ記述(NLVD)は最近、コンピュータビジョン、自然言語処理、マルチメディア、自律型ロボティクスのコミュニティに強い関心を集めている。
本研究は, 視覚入力の役割に関する広範な研究を行い, 総合的なNLP性能について評価した。
t-SNEをベースとした解析を行い,検討した変換が全体的視覚データ分布に与える影響を評価する。
論文 参考訳(メタデータ) (2021-02-09T19:00:35Z) - A Short Note on the Kinetics-700-2020 Human Action Dataset [0.0]
我々は、DeepMind Kinetics Human Action datasetの2020年版について述べる。
この新しいバージョンでは、700のクラスごとに異なるYouTubeビデオから、少なくとも700のビデオクリップが提供されている。
論文 参考訳(メタデータ) (2020-10-21T09:47:09Z) - Learning Visual Voice Activity Detection with an Automatically Annotated
Dataset [20.725871972294236]
視覚的音声活動検出(V-VAD)は、人が話しているかどうかを予測するために視覚的特徴を使用する。
本稿では,V-VADのための2つの深いアーキテクチャを提案し,その1つは顔のランドマークに基づくもので,もう1つは光学的流れに基づくものである。
我々は、WildVVADで非常に大きなデータセットを自動生成し、注釈付けするための新しい手法を紹介します。
論文 参考訳(メタデータ) (2020-09-23T15:12:24Z) - q-VAE for Disentangled Representation Learning and Latent Dynamical
Systems [8.071506311915396]
q-VAEと呼ばれるTsallis統計から導出される変分オートエンコーダ(VAE)を提案する。
提案手法では,サンプルデータに隠された潜伏空間を統計的に抽出するために標準VAEを用いる。
論文 参考訳(メタデータ) (2020-03-04T01:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。