論文の概要: Creating a Large-scale Synthetic Dataset for Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2007.11118v1
- Date: Tue, 21 Jul 2020 22:20:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 05:25:18.952644
- Title: Creating a Large-scale Synthetic Dataset for Human Activity Recognition
- Title(参考訳): 人間活動認識のための大規模合成データセットの作成
- Authors: Ollie Matthews, Koki Ryu, Tarun Srivastava
- Abstract要約: ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
- 参考スコア(独自算出の注目度): 0.8250374560598496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating and labelling datasets of videos for use in training Human Activity
Recognition models is an arduous task. In this paper, we approach this by using
3D rendering tools to generate a synthetic dataset of videos, and show that a
classifier trained on these videos can generalise to real videos. We use five
different augmentation techniques to generate the videos, leading to a wide
variety of accurately labelled unique videos. We fine tune a pre-trained I3D
model on our videos, and find that the model is able to achieve a high accuracy
of 73% on the HMDB51 dataset over three classes. We also find that augmenting
the HMDB training set with our dataset provides a 2% improvement in the
performance of the classifier. Finally, we discuss possible extensions to the
dataset, including virtual try on and modeling motion of the people.
- Abstract(参考訳): 人間の活動認識モデルのトレーニングに使用するビデオのデータセットの作成とラベリングは大変な作業です。
本稿では,ビデオの合成データセットを生成するために3dレンダリングツールを使用し,これらのビデオで訓練された分類器が実際のビデオに一般化できることを示す。
ビデオを生成するのに5つの異なる拡張技術を使い、様々な異なるラベル付きユニークなビデオを生み出しました。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを示す。
また,HMDBトレーニングセットをデータセットで拡張することで,分類器の性能が2%向上することがわかった。
最後に、人々の仮想的な試行とモデリングを含む、データセットの拡張の可能性について議論する。
関連論文リスト
- 3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing [52.68314936128752]
本研究では,事前学習された大規模基盤モデルのパワーを活用して,3次元ラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。
各ターゲットセマンティッククラスに対して、まず、拡散モデルとチャットGPT生成したテキストプロンプトを介して、様々な構造と外観の1つのオブジェクトの2D画像を生成する。
我々は、これらの拡張画像を3Dオブジェクトに変換し、ランダムな合成によって仮想シーンを構築する。
論文 参考訳(メタデータ) (2024-08-25T09:31:22Z) - Directed Domain Fine-Tuning: Tailoring Separate Modalities for Specific Training Tasks [0.0]
本稿では,異なる領域内の各モダリティのタスクに特有の指導データセットを提案する。
我々は、ビデオ-LLaVAを使用して、書き起こしのない調理ビデオのレシピを生成する。
Video-LLaVAを微調整する我々のアプローチは、YouCook2データセットのベースラインであるVideo-LLaVAを2%向上させました。
論文 参考訳(メタデータ) (2024-06-24T06:39:02Z) - Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features [21.583246378475856]
我々は、AI生成ビデオ検出(GenVidDet)に特化して設計された広範なビデオデータセットを紹介する。
また,DuB3D(Du-Branch 3D Transformer)という,実写映像と実写映像を区別する革新的な方法を提案する。
DuB3Dは、96.77%の精度で実際の映像コンテンツと生成された映像コンテンツを区別でき、目に見えないタイプでも強力な一般化能力を持つ。
論文 参考訳(メタデータ) (2024-05-24T08:26:04Z) - Advancing Human Action Recognition with Foundation Models trained on Unlabeled Public Videos [2.3247413495885647]
我々は283,582本のTikTokビデオクリップを使用して、386のハッシュタグに分類し、ドメイン固有のアクション認識基盤モデルをトレーニングしている。
UCF101は99.05%、HMDB51は86.08%、Kinetics-400は85.51%、V2は74.27%である。
論文 参考訳(メタデータ) (2024-02-14T00:41:10Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。