論文の概要: Creating a Large-scale Synthetic Dataset for Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2007.11118v1
- Date: Tue, 21 Jul 2020 22:20:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 05:25:18.952644
- Title: Creating a Large-scale Synthetic Dataset for Human Activity Recognition
- Title(参考訳): 人間活動認識のための大規模合成データセットの作成
- Authors: Ollie Matthews, Koki Ryu, Tarun Srivastava
- Abstract要約: ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
- 参考スコア(独自算出の注目度): 0.8250374560598496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating and labelling datasets of videos for use in training Human Activity
Recognition models is an arduous task. In this paper, we approach this by using
3D rendering tools to generate a synthetic dataset of videos, and show that a
classifier trained on these videos can generalise to real videos. We use five
different augmentation techniques to generate the videos, leading to a wide
variety of accurately labelled unique videos. We fine tune a pre-trained I3D
model on our videos, and find that the model is able to achieve a high accuracy
of 73% on the HMDB51 dataset over three classes. We also find that augmenting
the HMDB training set with our dataset provides a 2% improvement in the
performance of the classifier. Finally, we discuss possible extensions to the
dataset, including virtual try on and modeling motion of the people.
- Abstract(参考訳): 人間の活動認識モデルのトレーニングに使用するビデオのデータセットの作成とラベリングは大変な作業です。
本稿では,ビデオの合成データセットを生成するために3dレンダリングツールを使用し,これらのビデオで訓練された分類器が実際のビデオに一般化できることを示す。
ビデオを生成するのに5つの異なる拡張技術を使い、様々な異なるラベル付きユニークなビデオを生み出しました。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを示す。
また,HMDBトレーニングセットをデータセットで拡張することで,分類器の性能が2%向上することがわかった。
最後に、人々の仮想的な試行とモデリングを含む、データセットの拡張の可能性について議論する。
関連論文リスト
- TikTokActions: A TikTok-Derived Video Dataset for Human Action
Recognition [2.4735867606303974]
現代の人間の行動に関する386のハッシュタグの下に分類された283,582のユニークなビデオクリップのデータセットをリリースする。
Tik-Tokデータセットを使用して事前トレーニングされたモデルのパフォーマンスは、より大きなアクション認識データセットでトレーニングされたモデルに匹敵する。
論文 参考訳(メタデータ) (2024-02-14T00:41:10Z) - Video Annotator: A framework for efficiently building video classifiers
using vision-language models and active learning [0.0]
Video Annotator(VA)は、ビデオ分類データセットに注釈を付け、管理し、反復するフレームワークである。
VAは、データ収集とモデルのトレーニングをシームレスに統合する、継続的アノテーションプロセスを可能にする。
VAは、最も競争力のあるベースラインと比較して平均精度が6.8ポイント改善されている。
論文 参考訳(メタデータ) (2024-02-09T17:19:05Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。