Fugu-MT 論文翻訳(概要): The AVA-Kinetics Localized Human Actions Video Dataset

論文の概要: The AVA-Kinetics Localized Human Actions Video Dataset

arxiv url: http://arxiv.org/abs/2005.00214v2
Date: Wed, 20 May 2020 17:40:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 23:28:31.539901
Title: The AVA-Kinetics Localized Human Actions Video Dataset
Title（参考訳）: AVA-Kineticsの人間行動ビデオデータセット
Authors: Ang Li, Meghana Thotakuri, David A. Ross, Jo\~ao Carreira, Alexander Vostrikov, Andrew Zisserman
Abstract要約: 本稿では,AVA-Kineticsによる人行動ビデオデータセットについて述べる。データセットは、AVAアノテーションプロトコルを使用して、Kinetics-700データセットのビデオをアノテートすることで収集される。データセットには、キーフレーム内の各人間のための80のAVAアクションクラスに注釈付けされた230万以上のクリップが含まれている。
参考スコア（独自算出の注目度）: 124.41706958756049
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper describes the AVA-Kinetics localized human actions video dataset. The dataset is collected by annotating videos from the Kinetics-700 dataset using the AVA annotation protocol, and extending the original AVA dataset with these new AVA annotated Kinetics clips. The dataset contains over 230k clips annotated with the 80 AVA action classes for each of the humans in key-frames. We describe the annotation process and provide statistics about the new dataset. We also include a baseline evaluation using the Video Action Transformer Network on the AVA-Kinetics dataset, demonstrating improved performance for action classification on the AVA test set. The dataset can be downloaded from https://research.google.com/ava/
Abstract（参考訳）: 本稿では,ava-kinetics localized human actions video datasetについて述べる。データセットは、AVAアノテーションプロトコルを使用して、Kinetics-700データセットのビデオを注釈付けし、これらの新しいAVAアノテーション付きKineticsクリップで元のAVAデータセットを拡張することで収集される。データセットには、キーフレーム内の各人間のための80のAVAアクションクラスに注釈付けされた230万以上のクリップが含まれている。アノテーションプロセスを説明し、新しいデータセットに関する統計を提供する。また,AVA-Kinetics データセット上での Video Action Transformer Network を用いたベースライン評価を行い,AVA テストセットにおけるアクション分類の性能向上を示す。データセットはhttps://research.google.com/ava/からダウンロードできる。

関連論文リスト

PHEVA: A Privacy-preserving Human-centric Video Anomaly Detection Dataset [2.473948454680334]
PHEVAは、ピクセル情報を取り除き、識別されていない人間のアノテーションのみを提供することで、個人を識別可能な情報を保護している。本研究は、10%エラーレート(10ER)を含む総合的なメトリクスセットを用いて、PHEVAの最先端手法をベンチマークする。この種の最初のものとして、PHEVAは、継続学習ベンチマークを導入することで、従来のトレーニングと実世界のデプロイメントのギャップを埋めるものだ。
論文参考訳（メタデータ） (2024-08-26T14:55:23Z)
OVR: A Dataset for Open Vocabulary Temporal Repetition Counting in Videos [58.5538620720541]
データセットであるOVRには72Kビデオのアノテーションが含まれている。 OVRは、ビデオの繰り返しのための以前のデータセットよりも桁違いに大きい。本稿では,ビデオの繰り返しを最大320フレームまでカウントできるベースライントランスフォーマーベースのカウントモデルOVRCounterを提案する。
論文参考訳（メタデータ） (2024-07-24T08:22:49Z)
TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文参考訳（メタデータ） (2024-05-04T21:55:33Z)
DAM: Dynamic Adapter Merging for Continual Video QA Learning [66.43360542692355]
連続的なビデオ質問応答(VidQA)学習のためのパラメータ効率のよい手法を提案する。提案手法では,(i)壊滅的忘れを軽減し,(ii)継続的に到着するデータセットへの効率的な適応を可能にし,(iv)類似したデータセットドメイン間の知識共有を可能にする。我々のDAMモデルは、さまざまなドメインにまたがる6つのVidQAデータセットに対する1.9%の忘れ込みを示しながら、最先端の継続的学習アプローチを9.1%向上させています。
論文参考訳（メタデータ） (2024-03-13T17:53:47Z)
Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文参考訳（メタデータ） (2023-11-08T00:56:31Z)
DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文参考訳（メタデータ） (2023-10-08T08:02:43Z)
MITFAS: Mutual Information based Temporal Feature Alignment and Sampling for Aerial Video Action Recognition [59.905048445296906]
UAVビデオにおける行動認識のための新しいアプローチを提案する。我々は、時間領域における人間の行動や動きに対応する領域を計算・調整するために、相互情報の概念を用いる。実際には、最先端の手法よりもTop-1の精度が18.9%向上している。
論文参考訳（メタデータ） (2023-03-05T04:05:17Z)
A Short Note on the Kinetics-700-2020 Human Action Dataset [0.0]
我々は、DeepMind Kinetics Human Action datasetの2020年版について述べる。この新しいバージョンでは、700のクラスごとに異なるYouTubeビデオから、少なくとも700のビデオクリップが提供されている。
論文参考訳（メタデータ） (2020-10-21T09:47:09Z)
Learning Visual Voice Activity Detection with an Automatically Annotated Dataset [20.725871972294236]
視覚的音声活動検出(V-VAD)は、人が話しているかどうかを予測するために視覚的特徴を使用する。本稿では,V-VADのための2つの深いアーキテクチャを提案し,その1つは顔のランドマークに基づくもので,もう1つは光学的流れに基づくものである。我々は、WildVVADで非常に大きなデータセットを自動生成し、注釈付けするための新しい手法を紹介します。
論文参考訳（メタデータ） (2020-09-23T15:12:24Z)
q-VAE for Disentangled Representation Learning and Latent Dynamical Systems [8.071506311915396]
q-VAEと呼ばれるTsallis統計から導出される変分オートエンコーダ(VAE)を提案する。提案手法では,サンプルデータに隠された潜伏空間を統計的に抽出するために標準VAEを用いる。
論文参考訳（メタデータ） (2020-03-04T01:38:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。