Fugu-MT 論文翻訳(概要): Creating a Large-scale Synthetic Dataset for Human Activity Recognition

論文の概要: Creating a Large-scale Synthetic Dataset for Human Activity Recognition

arxiv url: http://arxiv.org/abs/2007.11118v1
Date: Tue, 21 Jul 2020 22:20:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 05:25:18.952644
Title: Creating a Large-scale Synthetic Dataset for Human Activity Recognition
Title（参考訳）: 人間活動認識のための大規模合成データセットの作成
Authors: Ollie Matthews, Koki Ryu, Tarun Srivastava
Abstract要約: ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
参考スコア（独自算出の注目度）: 0.8250374560598496
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Creating and labelling datasets of videos for use in training Human Activity Recognition models is an arduous task. In this paper, we approach this by using 3D rendering tools to generate a synthetic dataset of videos, and show that a classifier trained on these videos can generalise to real videos. We use five different augmentation techniques to generate the videos, leading to a wide variety of accurately labelled unique videos. We fine tune a pre-trained I3D model on our videos, and find that the model is able to achieve a high accuracy of 73% on the HMDB51 dataset over three classes. We also find that augmenting the HMDB training set with our dataset provides a 2% improvement in the performance of the classifier. Finally, we discuss possible extensions to the dataset, including virtual try on and modeling motion of the people.
Abstract（参考訳）: 人間の活動認識モデルのトレーニングに使用するビデオのデータセットの作成とラベリングは大変な作業です。本稿では,ビデオの合成データセットを生成するために3dレンダリングツールを使用し,これらのビデオで訓練された分類器が実際のビデオに一般化できることを示す。ビデオを生成するのに5つの異なる拡張技術を使い、様々な異なるラベル付きユニークなビデオを生み出しました。ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを示す。また,HMDBトレーニングセットをデータセットで拡張することで,分類器の性能が2%向上することがわかった。最後に、人々の仮想的な試行とモデリングを含む、データセットの拡張の可能性について議論する。

関連論文リスト

Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文参考訳（メタデータ） (2025-07-17T15:36:39Z)
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.15907330726067]
我々は、画像とビデオの理解において透過的な研究を行うために、完全にオープンで再現可能なフレームワークでパーセプションモデル言語(PLM)を構築した。モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
論文参考訳（メタデータ） (2025-04-17T17:59:56Z)
NIL: No-data Imitation Learning by Leveraging Pre-trained Video Diffusion Models [36.05972290909729]
本稿では,2次元映像から3次元モータースキルを学習する技術習得のためのデータ非依存手法を提案する。ヒューマノイドロボットのタスクにおいて、NIL(No-data Imitation Learning)が3次元モーションキャプチャーデータに基づいてトレーニングされたベースラインより優れていることを示す。
論文参考訳（メタデータ） (2025-03-13T17:59:24Z)
Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。 EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文参考訳（メタデータ） (2025-03-02T18:49:48Z)
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos [119.35107657321902]
この研究は、深層生成モデルが視覚入力のみから複雑な知識を学習できるかどうかを考察する。我々は、未ラベルのビデオデータに基づいて訓練された自動回帰ビデオ生成モデルであるVideoWorldを開発し、ビデオベースのGoとロボット制御タスクにおける知識獲得能力をテストする。
論文参考訳（メタデータ） (2025-01-16T18:59:10Z)
OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文参考訳（メタデータ） (2024-11-28T07:01:06Z)
3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing [52.68314936128752]
本研究では,事前学習された大規模基盤モデルのパワーを活用して,3次元ラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。各ターゲットセマンティッククラスに対して、まず、拡散モデルとチャットGPT生成したテキストプロンプトを介して、様々な構造と外観の1つのオブジェクトの2D画像を生成する。我々は、これらの拡張画像を3Dオブジェクトに変換し、ランダムな合成によって仮想シーンを構築する。
論文参考訳（メタデータ） (2024-08-25T09:31:22Z)
Directed Domain Fine-Tuning: Tailoring Separate Modalities for Specific Training Tasks [0.0]
本稿では,異なる領域内の各モダリティのタスクに特有の指導データセットを提案する。我々は、ビデオ-LLaVAを使用して、書き起こしのない調理ビデオのレシピを生成する。 Video-LLaVAを微調整する我々のアプローチは、YouCook2データセットのベースラインであるVideo-LLaVAを2%向上させました。
論文参考訳（メタデータ） (2024-06-24T06:39:02Z)
Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features [21.583246378475856]
我々は、AI生成ビデオ検出(GenVidDet)に特化して設計された広範なビデオデータセットを紹介する。また,DuB3D(Du-Branch 3D Transformer)という,実写映像と実写映像を区別する革新的な方法を提案する。 DuB3Dは、96.77%の精度で実際の映像コンテンツと生成された映像コンテンツを区別でき、目に見えないタイプでも強力な一般化能力を持つ。
論文参考訳（メタデータ） (2024-05-24T08:26:04Z)
Advancing Human Action Recognition with Foundation Models trained on Unlabeled Public Videos [2.3247413495885647]
我々は283,582本のTikTokビデオクリップを使用して、386のハッシュタグに分類し、ドメイン固有のアクション認識基盤モデルをトレーニングしている。 UCF101は99.05%、HMDB51は86.08%、Kinetics-400は85.51%、V2は74.27%である。
論文参考訳（メタデータ） (2024-02-14T00:41:10Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文参考訳（メタデータ） (2023-03-29T14:28:41Z)
InternVideo: General Video Foundation Models via Generative and Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。 InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。 InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-12-06T18:09:49Z)
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。本研究では,映像分類作業における知識の伝達に着目した。予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文参考訳（メタデータ） (2022-07-04T10:00:47Z)
ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文参考訳（メタデータ） (2021-03-29T15:27:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。