論文の概要: A Short Note on the Kinetics-700-2020 Human Action Dataset
- arxiv url: http://arxiv.org/abs/2010.10864v1
- Date: Wed, 21 Oct 2020 09:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 23:16:04.426090
- Title: A Short Note on the Kinetics-700-2020 Human Action Dataset
- Title(参考訳): Kinetics-700-2020 Human Action Datasetについて
- Authors: Lucas Smaira (DeepMind), Jo\~ao Carreira (DeepMind), Eric Noland
(DeepMind), Ellen Clancy (DeepMind), Amy Wu (DeepMind), Andrew Zisserman
(DeepMind)
- Abstract要約: 我々は、DeepMind Kinetics Human Action datasetの2020年版について述べる。
この新しいバージョンでは、700のクラスごとに異なるYouTubeビデオから、少なくとも700のビデオクリップが提供されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe the 2020 edition of the DeepMind Kinetics human action dataset,
which replenishes and extends the Kinetics-700 dataset. In this new version,
there are at least 700 video clips from different YouTube videos for each of
the 700 classes. This paper details the changes introduced for this new release
of the dataset and includes a comprehensive set of statistics as well as
baseline results using the I3D network.
- Abstract(参考訳): 我々は、2020年のDeepMind Kineticsのヒューマンアクションデータセットについて記述し、Kinetics-700データセットを補足し拡張する。
この新しいバージョンでは、700クラスごとに、さまざまなyoutubeビデオから少なくとも700本のビデオクリップがある。
本稿では,データセットの新リリースで導入された変更について詳述し,I3Dネットワークを用いた総合統計とベースライン結果を含む。
関連論文リスト
- VEATIC: Video-based Emotion and Affect Tracking in Context Dataset [34.77364955121413]
私たちは、コンテキストデータセット(VEATIC)におけるビデオベースの感情と感情追跡という、まったく新しい大きなデータセットを導入しました。
VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。
提案するコンピュータビジョンタスクでは,映像フレームのコンテキスト情報と文字情報の両方を用いて,選択した文字の影響を推測する。
論文 参考訳(メタデータ) (2023-09-13T06:31:35Z) - AutoShot: A Short Video Dataset and State-of-the-Art Shot Boundary
Detection [70.99025467739715]
我々はSHOTという新しい公開ショートビデオsHot bOundary deTectionデータセットをリリースする。
SHOTは、853の完全なショートビデオと11,606のショットアノテーションで構成され、2,716の高品質なショット境界アノテーションが200のテストビデオに含まれている。
提案手法はAutoShotと呼ばれ,従来の最先端手法よりもF1スコアが高い。
論文 参考訳(メタデータ) (2023-04-12T19:01:21Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Revisiting 3D ResNets for Video Recognition [18.91688307058961]
本稿では,ビデオ認識モデルの効果的なトレーニングとスケーリング戦略について述べる。
本稿では,3次元ResNetの簡単なスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2021-09-03T18:27:52Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Quo Vadis, Skeleton Action Recognition ? [11.389618872289647]
我々は骨格に基づく人間の行動認識の現場における現在および今後のフロンティアについて研究する。
本研究では,Kinetics-700から得られたRGBビデオのキュレートしたサブセットであるSkeletics-152を紹介する。
我々は、Skeleton-MimeticsおよびMetaphoricsデータセットを導入して、文脈外アクションを含むように研究を拡張した。
論文 参考訳(メタデータ) (2020-07-04T11:02:21Z) - Rescaling Egocentric Vision [48.57283024015145]
本稿では,エゴセントリックビジョンにおける最大のデータセットであるEPIC-KITCHENSを拡張するパイプラインを紹介する。
この取り組みは、100時間20Mフレーム、700の可変長ビデオの90KアクションからなるEPIC-KITCHENS-100で頂点に達した。
EPIC-KITCHENS-100は以前のバージョンと比較して、より密度の高い(毎分54%のアクション)アクションとより完全なアクションアノテーション(+128%以上のアクションセグメント)を可能にする新しいパイプラインを使用して注釈付けされている。
論文 参考訳(メタデータ) (2020-06-23T18:28:04Z) - The AVA-Kinetics Localized Human Actions Video Dataset [124.41706958756049]
本稿では,AVA-Kineticsによる人行動ビデオデータセットについて述べる。
データセットは、AVAアノテーションプロトコルを使用して、Kinetics-700データセットのビデオをアノテートすることで収集される。
データセットには、キーフレーム内の各人間のための80のAVAアクションクラスに注釈付けされた230万以上のクリップが含まれている。
論文 参考訳(メタデータ) (2020-05-01T04:17:14Z) - Would Mega-scale Datasets Further Enhance Spatiotemporal 3D CNNs? [18.95620388632382]
ディープニューラルネットワークの初期において、ビデオ認識の文脈では、2D CNNは3D CNNよりも優れていた。
最近の研究では、3D CNNが大規模なビデオデータセットでトレーニングされた2D CNNより優れていることが判明した。
論文 参考訳(メタデータ) (2020-04-10T09:44:19Z) - Deep Learning for Content-based Personalized Viewport Prediction of
360-Degree VR Videos [72.08072170033054]
本稿では、位置データとビデオフレームコンテンツを活用して、将来の頭部の動きを予測するためのディープラーニングネットワークを提案する。
このニューラルネットワークに入力されるデータを最適化するために、このモデルのために、データサンプル率、データ削減、長期予測長についても検討する。
論文 参考訳(メタデータ) (2020-03-01T07:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。