論文の概要: HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation
- arxiv url: http://arxiv.org/abs/2407.17438v3
- Date: Thu, 21 Nov 2024 03:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:17:17.386105
- Title: HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation
- Title(参考訳): HumanVid: カメラ制御可能な人間のイメージアニメーションのためのデミスティファイトトレーニングデータ
- Authors: Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin,
- Abstract要約: 人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
- 参考スコア(独自算出の注目度): 64.37874983401221
- License:
- Abstract: Human image animation involves generating videos from a character photo, allowing user control and unlocking the potential for video and movie production. While recent approaches yield impressive results using high-quality training data, the inaccessibility of these datasets hampers fair and transparent benchmarking. Moreover, these approaches prioritize 2D human motion and overlook the significance of camera motions in videos, leading to limited control and unstable video generation. To demystify the training data, we present HumanVid, the first large-scale high-quality dataset tailored for human image animation, which combines crafted real-world and synthetic data. For the real-world data, we compile a vast collection of real-world videos from the internet. We developed and applied careful filtering rules to ensure video quality, resulting in a curated collection of 20K high-resolution (1080P) human-centric videos. Human and camera motion annotation is accomplished using a 2D pose estimator and a SLAM-based method. To expand our synthetic dataset, we collected 10K 3D avatar assets and leveraged existing assets of body shapes, skin textures and clothings. Notably, we introduce a rule-based camera trajectory generation method, enabling the synthetic pipeline to incorporate diverse and precise camera motion annotation, which can rarely be found in real-world data. To verify the effectiveness of HumanVid, we establish a baseline model named CamAnimate, short for Camera-controllable Human Animation, that considers both human and camera motions as conditions. Through extensive experimentation, we demonstrate that such simple baseline training on our HumanVid achieves state-of-the-art performance in controlling both human pose and camera motions, setting a new benchmark. Demo, data and code could be found in the project website: https://humanvid.github.io/.
- Abstract(参考訳): 人間の画像アニメーションは、キャラクタ写真からビデオを生成し、ユーザーが制御し、ビデオや映画制作の可能性を解き放つ。
最近のアプローチでは、高品質なトレーニングデータを使用して印象的な結果が得られるが、これらのデータセットがアクセスできないことは、公正で透明なベンチマークを妨げている。
さらに、これらの手法は2次元の人間の動きを優先し、ビデオにおけるカメラの動きの重要性を見落とし、限られた制御と不安定な映像生成につながる。
トレーニングデータをデミスティフィケートするために,人工現実データと合成データを組み合わせた人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを提案する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
その結果,20K高解像度(1080P)の人中心ビデオが収集された。
ヒトとカメラの動作アノテーションは2次元ポーズ推定器とSLAMに基づく手法を用いて達成される。
合成データセットを拡大するために、私たちは10Kの3Dアバターの資産を収集し、体形、肌のテクスチャ、衣服の既存の資産を活用しました。
特に,ルールに基づくカメラ軌跡生成手法を導入し,実世界のデータにはほとんど見つからない,多種多様な高精度なカメラモーションアノテーションを合成パイプラインに組み込むことを可能にした。
HumanVidの有効性を検証するため,カメラ制御可能なヒューマンアニメーションのベースラインモデルCamAnimateを構築し,人間とカメラの両方の動きを条件とする。
広範にわたる実験を通じて、人間のポーズとカメラの動きを制御し、新しいベンチマークを設定できるようなシンプルなHumanVidのベースライントレーニングが、最先端のパフォーマンスを実現することを実証した。
デモ、データ、コードはプロジェクトのWebサイト(https://humanvid.github.io/)で見ることができる。
関連論文リスト
- AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [60.5897687447003]
AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。
我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。
4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
論文 参考訳(メタデータ) (2024-10-09T17:58:56Z) - AMG: Avatar Motion Guided Video Generation [5.82136706118236]
本稿では,3次元アバターの制御レンダリングにビデオ拡散モデルを適用し,2次元フォトリアリズムと3次元制御性を組み合わせたAMGを提案する。
AMGは、カメラの位置、人間の動き、背景スタイルを正確に制御し、多人数拡散ビデオ生成を可能にする最初の方法である。
論文 参考訳(メタデータ) (2024-09-02T23:59:01Z) - Decoupling Human and Camera Motion from Videos in the Wild [67.39432972193929]
本研究では,野生の映像から地球規模の人間の軌道を再構築する手法を提案する。
カメラと人間の動きを分離することで、人間を同じ世界座標系に配置することができる。
論文 参考訳(メタデータ) (2023-02-24T18:59:15Z) - QS-Craft: Learning to Quantize, Scrabble and Craft for Conditional Human
Motion Animation [66.97112599818507]
本稿では,条件付きヒューマンモーションアニメーション(cHMA)の課題について検討する。
ソースイメージとドライビングビデオが与えられた場合、モデルは新しいフレームシーケンスをアニメーション化するべきである。
新たな3つの重要なステップは、量子化、スクラブル、クラフトだ。
論文 参考訳(メタデータ) (2022-03-22T11:34:40Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。