Fugu-MT 論文翻訳(概要): Human Motion Video Generation: A Survey

論文の概要: Human Motion Video Generation: A Survey

arxiv url: http://arxiv.org/abs/2509.03883v1
Date: Thu, 04 Sep 2025 04:39:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-05 20:21:10.052262
Title: Human Motion Video Generation: A Survey
Title（参考訳）: 人間のモーションビデオ生成:サーベイ
Authors: Haiwei Xue, Xiangyang Luo, Zhanghao Hu, Xin Zhang, Xunzhi Xiang, Yuqin Dai, Jianzhuang Liu, Zhensong Zhang, Minglei Li, Jian Yang, Fei Ma, Zhiyong Wu, Changpeng Yang, Zonghong Dai, Fei Richard Yu,
Abstract要約: 本稿では,10以上のサブタスクを含む人間のモーションビデオ生成について,詳細な調査を行う。生成プロセスの5つの重要なフェーズ - 入力、モーションプランニング、モーションビデオ生成、リファインメント、アウトプット - について詳述する。特に、人間のモーションビデオ生成の強化における大規模言語モデルの可能性について論じる最初の調査である。
参考スコア（独自算出の注目度）: 65.24556163013375
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human motion video generation has garnered significant research interest due to its broad applications, enabling innovations such as photorealistic singing heads or dynamic avatars that seamlessly dance to music. However, existing surveys in this field focus on individual methods, lacking a comprehensive overview of the entire generative process. This paper addresses this gap by providing an in-depth survey of human motion video generation, encompassing over ten sub-tasks, and detailing the five key phases of the generation process: input, motion planning, motion video generation, refinement, and output. Notably, this is the first survey that discusses the potential of large language models in enhancing human motion video generation. Our survey reviews the latest developments and technological trends in human motion video generation across three primary modalities: vision, text, and audio. By covering over two hundred papers, we offer a thorough overview of the field and highlight milestone works that have driven significant technological breakthroughs. Our goal for this survey is to unveil the prospects of human motion video generation and serve as a valuable resource for advancing the comprehensive applications of digital humans. A complete list of the models examined in this survey is available in Our Repository https://github.com/Winn1y/Awesome-Human-Motion-Video-Generation.
Abstract（参考訳）: 人間のモーションビデオ生成は、写真リアリスティックな歌声ヘッドや、音楽に合わせてシームレスに踊るダイナミックなアバターなどの革新を可能にする幅広い応用のために、大きな研究の関心を集めている。しかし、この分野での既存の調査は個々の手法に焦点をあてており、生成過程全体の包括的概要を欠いている。本稿では,10以上のサブタスクを包含し,入力,動作計画,動画生成,精細化,出力の5つの重要なフェーズを詳述し,人間の動画生成の詳細な調査を行うことにより,このギャップに対処する。特に、人間のモーションビデオ生成の強化における大規模言語モデルの可能性について論じる最初の調査である。本調査では、視覚、テキスト、オーディオの3つの主要モードにわたる、人間のモーションビデオ生成の最新の展開と技術動向についてレビューする。 200以上の論文をカバーし、この分野の詳細な概要と、重要な技術的ブレークスルーを引き起こしたマイルストーンワークのハイライトを提供する。この調査の目的は、人間のモーションビデオ生成の可能性を明らかにすることであり、デジタルヒューマンの包括的な応用を促進するための貴重な資源となることである。この調査で調査されたモデルの完全なリストは、Our Repository https://github.com/Winn1y/Awesome-Human-Motion-Video-Generationで公開されている。

関連論文リスト

From Generated Human Videos to Physically Plausible Robot Trajectories [103.28274349461607]
ビデオ生成モデルは、人間のアクションを新しい文脈で合成する能力が急速に向上している。この可能性を実現するために、ヒューマノイドはどうやってゼロショットで生成されたビデオから人間の行動を実行することができるのか? この課題は、生成されたビデオがしばしばうるさいので、実際のビデオと比べて直接の模倣を困難にする形態的歪みを示すためである。我々は,3次元キーポイントに条件付き物理対応強化学習政策であるGenMimicを提案し,対称性の正則化とキーポイント重み付きトラッキング報酬を訓練した。
論文参考訳（メタデータ） (2025-12-04T18:56:03Z)
HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation [28.007696532331934]
本稿では、まずテキストプロンプトから多様なポーズを生成する、疎結合なヒューマンビデオ生成フレームワークを提案する。我々は、テキストプロンプトから構造化された人間のポーズを生成するためにトレーニングされたMotionDiTを提案する。さまざまなPose-to-Videoベースラインにわたる実験により,提案手法によって生成されたポーズが,多種多様な高品質な人力動画を生成できることが実証された。
論文参考訳（メタデータ） (2025-03-31T12:51:45Z)
Vision-to-Music Generation: A Survey [10.993775589904251]
ヴィジュアル・ツー・ミュージック・ジェネレーションは、映画スコアリング、ショートビデオ作成、ダンス音楽の合成といった分野における大きな応用可能性を示している。ヴィジュアル・ツー・ミュージックの研究は、複雑な内部構造とビデオとの動的関係のモデル化が難しいため、まだ初期段階にある。既存の調査では、ヴィジュアル・ツー・ミュージックに関する包括的な議論をすることなく、一般的な音楽生成に焦点を当てている。
論文参考訳（メタデータ） (2025-03-27T08:21:54Z)
ASurvey: Spatiotemporal Consistency in Video Generation [72.82267240482874]
動的視覚生成手法を利用した映像生成手法は人工知能生成コンテンツ(AIGC)の境界を押し下げる最近の研究は、映像生成における時間的一貫性の問題に対処することを目的としているが、この観点からの文献レビューはほとんど行われていない。基礎モデル,情報表現,生成スキーム,後処理技術,評価指標の5つの重要な側面を網羅して,映像生成の最近の進歩を体系的に検討した。
論文参考訳（メタデータ） (2025-02-25T05:20:51Z)
Llama Learns to Direct: DirectorLLM for Human-Centric Video Generation [54.561971554162376]
ビデオ内の人間のポーズを整理するために,大規模言語モデル(LLM)を用いた新しいビデオ生成モデルである DirectorLLM を紹介する。我々のモデルは、人間の動きの忠実度を高め、迅速な忠実度を向上し、被写体自然性を向上する上で、既存のものよりも優れています。
論文参考訳（メタデータ） (2024-12-19T03:10:26Z)
A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights [8.192172339127657]
ヒューマンビデオ生成は、テキスト、オーディオ、ポーズなどの制御条件が与えられた生成モデルを用いて、2次元の人体ビデオシーケンスを合成することを目的としている。近年の世代モデルの発展は、この分野への関心の高まりに確かな基盤を築き上げている。著しい進歩にもかかわらず、キャラクターの整合性、人間の動きの複雑さ、環境との関わりの難しさなど、人間の映像生成の課題は依然として困難なままである。
論文参考訳（メタデータ） (2024-07-11T12:09:05Z)
Human Motion Generation: A Survey [67.38982546213371]
人間の動き生成は、自然の人間のポーズシーケンスを生成し、現実世界の応用に大きな可能性を示すことを目的としている。この分野のほとんどの研究は、テキスト、オーディオ、シーンコンテキストなどの条件信号に基づいて人間の動きを生成することに焦点を当てている。本稿では,人間の動作生成に関する総合的な文献レビューを紹介する。
論文参考訳（メタデータ） (2023-07-20T14:15:20Z)
Deep Person Generation: A Survey from the Perspective of Face, Pose and Cloth Synthesis [55.72674354651122]
まず、まず、人物生成の範囲を要約し、それから、最新の進歩と深い人物生成の技術的トレンドを体系的にレビューする。 200以上の論文が網羅的に紹介され、重要な技術的ブレークスルーを見るためにマイルストーンの作業が強調されている。この調査は、ディープ・パーソン・ジェネレーションの将来的な展望に光を当て、デジタル・ヒューマンへの完全な応用のための有用な基盤を提供することを期待している。
論文参考訳（メタデータ） (2021-09-05T14:15:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。