Fugu-MT 論文翻訳(概要): A Short Note on the Kinetics-700-2020 Human Action Dataset

論文の概要: A Short Note on the Kinetics-700-2020 Human Action Dataset

arxiv url: http://arxiv.org/abs/2010.10864v1
Date: Wed, 21 Oct 2020 09:47:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 23:16:04.426090
Title: A Short Note on the Kinetics-700-2020 Human Action Dataset
Title（参考訳）: Kinetics-700-2020 Human Action Datasetについて
Authors: Lucas Smaira (DeepMind), Jo\~ao Carreira (DeepMind), Eric Noland (DeepMind), Ellen Clancy (DeepMind), Amy Wu (DeepMind), Andrew Zisserman (DeepMind)
Abstract要約: 我々は、DeepMind Kinetics Human Action datasetの2020年版について述べる。この新しいバージョンでは、700のクラスごとに異なるYouTubeビデオから、少なくとも700のビデオクリップが提供されている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We describe the 2020 edition of the DeepMind Kinetics human action dataset, which replenishes and extends the Kinetics-700 dataset. In this new version, there are at least 700 video clips from different YouTube videos for each of the 700 classes. This paper details the changes introduced for this new release of the dataset and includes a comprehensive set of statistics as well as baseline results using the I3D network.
Abstract（参考訳）: 我々は、2020年のDeepMind Kineticsのヒューマンアクションデータセットについて記述し、Kinetics-700データセットを補足し拡張する。この新しいバージョンでは、700クラスごとに、さまざまなyoutubeビデオから少なくとも700本のビデオクリップがある。本稿では,データセットの新リリースで導入された変更について詳述し,I3Dネットワークを用いた総合統計とベースライン結果を含む。

関連論文リスト

Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文参考訳（メタデータ） (2024-06-14T10:23:53Z)
CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文参考訳（メタデータ） (2024-05-14T17:59:02Z)
VEATIC: Video-based Emotion and Affect Tracking in Context Dataset [34.77364955121413]
私たちは、コンテキストデータセット(VEATIC)におけるビデオベースの感情と感情追跡という、まったく新しい大きなデータセットを導入しました。 VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。提案するコンピュータビジョンタスクでは,映像フレームのコンテキスト情報と文字情報の両方を用いて,選択した文字の影響を推測する。
論文参考訳（メタデータ） (2023-09-13T06:31:35Z)
AutoShot: A Short Video Dataset and State-of-the-Art Shot Boundary Detection [70.99025467739715]
我々はSHOTという新しい公開ショートビデオsHot bOundary deTectionデータセットをリリースする。 SHOTは、853の完全なショートビデオと11,606のショットアノテーションで構成され、2,716の高品質なショット境界アノテーションが200のテストビデオに含まれている。提案手法はAutoShotと呼ばれ,従来の最先端手法よりもF1スコアが高い。
論文参考訳（メタデータ） (2023-04-12T19:01:21Z)
Revisiting 3D ResNets for Video Recognition [18.91688307058961]
本稿では,ビデオ認識モデルの効果的なトレーニングとスケーリング戦略について述べる。本稿では,3次元ResNetの簡単なスケーリング戦略を提案する。
論文参考訳（メタデータ） (2021-09-03T18:27:52Z)
Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。 AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文参考訳（メタデータ） (2021-05-10T16:30:46Z)
Quo Vadis, Skeleton Action Recognition ? [11.389618872289647]
我々は骨格に基づく人間の行動認識の現場における現在および今後のフロンティアについて研究する。本研究では,Kinetics-700から得られたRGBビデオのキュレートしたサブセットであるSkeletics-152を紹介する。我々は、Skeleton-MimeticsおよびMetaphoricsデータセットを導入して、文脈外アクションを含むように研究を拡張した。
論文参考訳（メタデータ） (2020-07-04T11:02:21Z)
Rescaling Egocentric Vision [48.57283024015145]
本稿では,エゴセントリックビジョンにおける最大のデータセットであるEPIC-KITCHENSを拡張するパイプラインを紹介する。この取り組みは、100時間20Mフレーム、700の可変長ビデオの90KアクションからなるEPIC-KITCHENS-100で頂点に達した。 EPIC-KITCHENS-100は以前のバージョンと比較して、より密度の高い(毎分54%のアクション)アクションとより完全なアクションアノテーション(+128%以上のアクションセグメント)を可能にする新しいパイプラインを使用して注釈付けされている。
論文参考訳（メタデータ） (2020-06-23T18:28:04Z)
The AVA-Kinetics Localized Human Actions Video Dataset [124.41706958756049]
本稿では,AVA-Kineticsによる人行動ビデオデータセットについて述べる。データセットは、AVAアノテーションプロトコルを使用して、Kinetics-700データセットのビデオをアノテートすることで収集される。データセットには、キーフレーム内の各人間のための80のAVAアクションクラスに注釈付けされた230万以上のクリップが含まれている。
論文参考訳（メタデータ） (2020-05-01T04:17:14Z)
Would Mega-scale Datasets Further Enhance Spatiotemporal 3D CNNs? [18.95620388632382]
ディープニューラルネットワークの初期において、ビデオ認識の文脈では、2D CNNは3D CNNよりも優れていた。最近の研究では、3D CNNが大規模なビデオデータセットでトレーニングされた2D CNNより優れていることが判明した。
論文参考訳（メタデータ） (2020-04-10T09:44:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。