論文の概要: HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation
- arxiv url: http://arxiv.org/abs/2503.24026v1
- Date: Mon, 31 Mar 2025 12:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:06.438920
- Title: HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation
- Title(参考訳): HumanDreamer:デカップリング生成による制御可能なヒューマンモーションビデオの生成
- Authors: Boyuan Wang, Xiaofeng Wang, Chaojun Ni, Guosheng Zhao, Zhiqin Yang, Zheng Zhu, Muyang Zhang, Yukun Zhou, Xinze Chen, Guan Huang, Lihong Liu, Xingang Wang,
- Abstract要約: 本稿では、まずテキストプロンプトから多様なポーズを生成する、疎結合なヒューマンビデオ生成フレームワークを提案する。
我々は、テキストプロンプトから構造化された人間のポーズを生成するためにトレーニングされたMotionDiTを提案する。
さまざまなPose-to-Videoベースラインにわたる実験により,提案手法によって生成されたポーズが,多種多様な高品質な人力動画を生成できることが実証された。
- 参考スコア(独自算出の注目度): 28.007696532331934
- License:
- Abstract: Human-motion video generation has been a challenging task, primarily due to the difficulty inherent in learning human body movements. While some approaches have attempted to drive human-centric video generation explicitly through pose control, these methods typically rely on poses derived from existing videos, thereby lacking flexibility. To address this, we propose HumanDreamer, a decoupled human video generation framework that first generates diverse poses from text prompts and then leverages these poses to generate human-motion videos. Specifically, we propose MotionVid, the largest dataset for human-motion pose generation. Based on the dataset, we present MotionDiT, which is trained to generate structured human-motion poses from text prompts. Besides, a novel LAMA loss is introduced, which together contribute to a significant improvement in FID by 62.4%, along with respective enhancements in R-precision for top1, top2, and top3 by 41.8%, 26.3%, and 18.3%, thereby advancing both the Text-to-Pose control accuracy and FID metrics. Our experiments across various Pose-to-Video baselines demonstrate that the poses generated by our method can produce diverse and high-quality human-motion videos. Furthermore, our model can facilitate other downstream tasks, such as pose sequence prediction and 2D-3D motion lifting.
- Abstract(参考訳): 人間のモーションビデオ生成は、主に人体の動きを学習することの難しさから、難しい課題となっている。
ポーズ制御を通じて人中心のビデオ生成を明示的に推進しようとするアプローチもあるが、これらの手法は通常、既存のビデオから派生したポーズに依存しており、柔軟性に欠ける。
そこで本研究では,まずテキストプロンプトから多様なポーズを生成し,そのポーズを利用して人間のモーションビデオを生成する,分離されたヒューマンビデオ生成フレームワークであるHumanDreamerを提案する。
具体的には、人間のポーズ生成のための最大のデータセットであるMotionVidを提案する。
このデータセットに基づいて、テキストプロンプトから構造化された人間のポーズを生成するためにトレーニングされたMotionDiTを提案する。
さらに、新たなLAMA損失が導入され、FIDの62.4%の大幅な改善と、Top1、Top2、Top3のR精度の41.8%、26.3%、および18.3%の改善により、Text-to-Pose制御精度とFIDメトリクスの両方が向上した。
さまざまなPose-to-Videoベースラインにわたる実験により,提案手法によって生成されたポーズが,多種多様な高品質な人力動画を生成できることが実証された。
さらに,ポーズシーケンス予測や2D-3Dモーションリフトなど,下流作業の促進も可能である。
関連論文リスト
- DirectorLLM for Human-Centric Video Generation [46.37441947526771]
ビデオ内の人間のポーズを整理するために,大規模言語モデル(LLM)を用いた新しいビデオ生成モデルである DirectorLLM を紹介する。
我々のモデルは、人間の動きの忠実度を高め、迅速な忠実度を向上し、被写体自然性を向上する上で、既存のものよりも優れています。
論文 参考訳(メタデータ) (2024-12-19T03:10:26Z) - Move-in-2D: 2D-Conditioned Human Motion Generation [54.067588636155115]
そこで我々は,シーンイメージに条件付けされた人間の動作シーケンスを生成する新しい手法であるMove-in-2Dを提案する。
本手法はシーンイメージとテキストプロンプトの両方を入力として受け入れ,シーンに合わせた動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-12-17T18:58:07Z) - Fleximo: Towards Flexible Text-to-Human Motion Video Generation [17.579663311741072]
本稿では,参照画像と自然言語のみから人間のモーションビデオを生成するための新しいタスクを提案する。
本稿では,大規模事前学習型テキスト・ツー・3Dモーションモデルを利用したFleximoというフレームワークを提案する。
Fleximoの性能を評価するために、20のアイデンティティと20のモーションにわたる400の動画を含むMotionBenchという新しいベンチマークを導入した。
論文 参考訳(メタデータ) (2024-11-29T04:09:13Z) - OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文 参考訳(メタデータ) (2024-11-28T07:01:06Z) - HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
論文 参考訳(メタデータ) (2024-07-24T17:15:58Z) - Text2Performer: Text-Driven Human Video Generation [97.3849869893433]
テキストによるコンテンツ制作は、創造性に革命をもたらす変革的技術へと進化してきた。
そこで本研究では,対象パフォーマーの外観や動きを記述したテキストから映像シーケンスを合成する,テキスト駆動型ヒューマンビデオ生成の課題について検討する。
そこで本研究では,テキストから手話による映像を鮮明に生成するText2Performerを提案する。
論文 参考訳(メタデータ) (2023-04-17T17:59:02Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - Human Motion Transfer from Poses in the Wild [61.6016458288803]
人間の動き伝達の問題に対処し、基準映像からの動きを模倣する対象人物のための新しい動き映像を合成する。
推定ポーズを用いて2つのドメインをブリッジするビデオ間翻訳タスクである。
トレーニング中に見つからない線内ポーズシーケンスであっても、時間的に一貫性のある高品質なビデオを生成するための新しいポーズ・ツー・ビデオ翻訳フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T05:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。