論文の概要: OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation
- arxiv url: http://arxiv.org/abs/2412.00115v3
- Date: Sat, 04 Jan 2025 06:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:03:09.467935
- Title: OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation
- Title(参考訳): OpenHumanVid:人間中心のビデオ生成を支援する大規模高品質データセット
- Authors: Hui Li, Mingwang Xu, Yun Zhan, Shan Mu, Jiaye Li, Kaihui Cheng, Yuxuan Chen, Tan Chen, Mao Ye, Jingdong Wang, Siyu Zhu,
- Abstract要約: 大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
- 参考スコア(独自算出の注目度): 27.516068877910254
- License:
- Abstract: Recent advancements in visual generation technologies have markedly increased the scale and availability of video datasets, which are crucial for training effective video generation models. However, a significant lack of high-quality, human-centric video datasets presents a challenge to progress in this field. To bridge this gap, we introduce OpenHumanVid, a large-scale and high-quality human-centric video dataset characterized by precise and detailed captions that encompass both human appearance and motion states, along with supplementary human motion conditions, including skeleton sequences and speech audio. To validate the efficacy of this dataset and the associated training strategies, we propose an extension of existing classical diffusion transformer architectures and conduct further pretraining of our models on the proposed dataset. Our findings yield two critical insights: First, the incorporation of a large-scale, high-quality dataset substantially enhances evaluation metrics for generated human videos while preserving performance in general video generation tasks. Second, the effective alignment of text with human appearance, human motion, and facial motion is essential for producing high-quality video outputs. Based on these insights and corresponding methodologies, the straightforward extended network trained on the proposed dataset demonstrates an obvious improvement in the generation of human-centric videos. Project page https://fudan-generative-vision.github.io/OpenHumanVid
- Abstract(参考訳): 映像生成技術の最近の進歩は、効果的な映像生成モデルの訓練に欠かせない、ビデオデータセットのスケールと可用性を著しく向上させてきた。
しかし、高品質で人間中心のビデオデータセットの欠如は、この分野の進歩への挑戦を示している。
このギャップを埋めるために、我々はOpenHumanVidという大規模で高品質な人間中心のビデオデータセットを紹介した。
このデータセットの有効性と関連するトレーニング戦略を検証するため,既存の古典的拡散トランスフォーマーアーキテクチャの拡張を提案し,提案したデータセット上でモデルをさらに事前学習する。
まず、大規模で高品質なデータセットを組み込むことによって、一般的なビデオ生成タスクのパフォーマンスを維持しながら、生成した人間のビデオの評価指標を大幅に向上させる。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
これらの知見とそれに対応する方法論に基づいて、提案したデータセットに基づいてトレーニングされたストレートな拡張ネットワークは、人間中心のビデオの生成において明らかな改善を示す。
Project page https://fudan-generative-vision.github.io/OpenHumanVid
関連論文リスト
- VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - FaceVid-1K: A Large-Scale High-Quality Multiracial Human Face Video Dataset [15.917564646478628]
我々はtextbfFaceVid-1K という高品質な多人種顔コレクションを作成している。
我々は,テキスト・トゥ・ビデオ,画像・トゥ・ビデオ,無条件映像生成など,確立されたビデオ生成モデルを用いて実験を行った。
対応するパフォーマンスベンチマークを取得し、公開データセットでトレーニングされたベンチマークと比較し、データセットの優位性を実証する。
論文 参考訳(メタデータ) (2024-09-23T07:27:02Z) - HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
論文 参考訳(メタデータ) (2024-07-24T17:15:58Z) - A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights [8.192172339127657]
ヒューマンビデオ生成は、テキスト、オーディオ、ポーズなどの制御条件が与えられた生成モデルを用いて、2次元の人体ビデオシーケンスを合成することを目的としている。
近年の世代モデルの発展は、この分野への関心の高まりに確かな基盤を築き上げている。
著しい進歩にもかかわらず、キャラクターの整合性、人間の動きの複雑さ、環境との関わりの難しさなど、人間の映像生成の課題は依然として困難なままである。
論文 参考訳(メタデータ) (2024-07-11T12:09:05Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - Creating a Large-scale Synthetic Dataset for Human Activity Recognition [0.8250374560598496]
ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
論文 参考訳(メタデータ) (2020-07-21T22:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。