論文の概要: Human Motion Video Generation: A Survey
- arxiv url: http://arxiv.org/abs/2509.03883v1
- Date: Thu, 04 Sep 2025 04:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.052262
- Title: Human Motion Video Generation: A Survey
- Title(参考訳): 人間のモーションビデオ生成:サーベイ
- Authors: Haiwei Xue, Xiangyang Luo, Zhanghao Hu, Xin Zhang, Xunzhi Xiang, Yuqin Dai, Jianzhuang Liu, Zhensong Zhang, Minglei Li, Jian Yang, Fei Ma, Zhiyong Wu, Changpeng Yang, Zonghong Dai, Fei Richard Yu,
- Abstract要約: 本稿では,10以上のサブタスクを含む人間のモーションビデオ生成について,詳細な調査を行う。
生成プロセスの5つの重要なフェーズ - 入力、モーションプランニング、モーションビデオ生成、リファインメント、アウトプット - について詳述する。
特に、人間のモーションビデオ生成の強化における大規模言語モデルの可能性について論じる最初の調査である。
- 参考スコア(独自算出の注目度): 65.24556163013375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human motion video generation has garnered significant research interest due to its broad applications, enabling innovations such as photorealistic singing heads or dynamic avatars that seamlessly dance to music. However, existing surveys in this field focus on individual methods, lacking a comprehensive overview of the entire generative process. This paper addresses this gap by providing an in-depth survey of human motion video generation, encompassing over ten sub-tasks, and detailing the five key phases of the generation process: input, motion planning, motion video generation, refinement, and output. Notably, this is the first survey that discusses the potential of large language models in enhancing human motion video generation. Our survey reviews the latest developments and technological trends in human motion video generation across three primary modalities: vision, text, and audio. By covering over two hundred papers, we offer a thorough overview of the field and highlight milestone works that have driven significant technological breakthroughs. Our goal for this survey is to unveil the prospects of human motion video generation and serve as a valuable resource for advancing the comprehensive applications of digital humans. A complete list of the models examined in this survey is available in Our Repository https://github.com/Winn1y/Awesome-Human-Motion-Video-Generation.
- Abstract(参考訳): 人間のモーションビデオ生成は、写真リアリスティックな歌声ヘッドや、音楽に合わせてシームレスに踊るダイナミックなアバターなどの革新を可能にする幅広い応用のために、大きな研究の関心を集めている。
しかし、この分野での既存の調査は個々の手法に焦点をあてており、生成過程全体の包括的概要を欠いている。
本稿では,10以上のサブタスクを包含し,入力,動作計画,動画生成,精細化,出力の5つの重要なフェーズを詳述し,人間の動画生成の詳細な調査を行うことにより,このギャップに対処する。
特に、人間のモーションビデオ生成の強化における大規模言語モデルの可能性について論じる最初の調査である。
本調査では、視覚、テキスト、オーディオの3つの主要モードにわたる、人間のモーションビデオ生成の最新の展開と技術動向についてレビューする。
200以上の論文をカバーし、この分野の詳細な概要と、重要な技術的ブレークスルーを引き起こしたマイルストーンワークのハイライトを提供する。
この調査の目的は、人間のモーションビデオ生成の可能性を明らかにすることであり、デジタルヒューマンの包括的な応用を促進するための貴重な資源となることである。
この調査で調査されたモデルの完全なリストは、Our Repository https://github.com/Winn1y/Awesome-Human-Motion-Video-Generationで公開されている。
関連論文リスト
- A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights [8.192172339127657]
ヒューマンビデオ生成は、テキスト、オーディオ、ポーズなどの制御条件が与えられた生成モデルを用いて、2次元の人体ビデオシーケンスを合成することを目的としている。
近年の世代モデルの発展は、この分野への関心の高まりに確かな基盤を築き上げている。
著しい進歩にもかかわらず、キャラクターの整合性、人間の動きの複雑さ、環境との関わりの難しさなど、人間の映像生成の課題は依然として困難なままである。
論文 参考訳(メタデータ) (2024-07-11T12:09:05Z) - Human Motion Generation: A Survey [67.38982546213371]
人間の動き生成は、自然の人間のポーズシーケンスを生成し、現実世界の応用に大きな可能性を示すことを目的としている。
この分野のほとんどの研究は、テキスト、オーディオ、シーンコンテキストなどの条件信号に基づいて人間の動きを生成することに焦点を当てている。
本稿では,人間の動作生成に関する総合的な文献レビューを紹介する。
論文 参考訳(メタデータ) (2023-07-20T14:15:20Z) - Deep Person Generation: A Survey from the Perspective of Face, Pose and
Cloth Synthesis [55.72674354651122]
まず、まず、人物生成の範囲を要約し、それから、最新の進歩と深い人物生成の技術的トレンドを体系的にレビューする。
200以上の論文が網羅的に紹介され、重要な技術的ブレークスルーを見るためにマイルストーンの作業が強調されている。
この調査は、ディープ・パーソン・ジェネレーションの将来的な展望に光を当て、デジタル・ヒューマンへの完全な応用のための有用な基盤を提供することを期待している。
論文 参考訳(メタデータ) (2021-09-05T14:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。