Fugu-MT 論文翻訳(概要): A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights

論文の概要: A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights

arxiv url: http://arxiv.org/abs/2407.08428v1
Date: Thu, 11 Jul 2024 12:09:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 17:39:27.542748
Title: A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights
Title（参考訳）: ヒューマンビデオ生成に関する包括的調査 : 課題,方法,展望
Authors: Wentao Lei, Jinting Wang, Fengji Ma, Guanjie Huang, Li Liu,
Abstract要約: ヒューマンビデオ生成は、テキスト、オーディオ、ポーズなどの制御条件が与えられた生成モデルを用いて、2次元の人体ビデオシーケンスを合成することを目的としている。近年の世代モデルの発展は、この分野への関心の高まりに確かな基盤を築き上げている。著しい進歩にもかかわらず、キャラクターの整合性、人間の動きの複雑さ、環境との関わりの難しさなど、人間の映像生成の課題は依然として困難なままである。
参考スコア（独自算出の注目度）: 8.192172339127657
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Human video generation is a dynamic and rapidly evolving task that aims to synthesize 2D human body video sequences with generative models given control conditions such as text, audio, and pose. With the potential for wide-ranging applications in film, gaming, and virtual communication, the ability to generate natural and realistic human video is critical. Recent advancements in generative models have laid a solid foundation for the growing interest in this area. Despite the significant progress, the task of human video generation remains challenging due to the consistency of characters, the complexity of human motion, and difficulties in their relationship with the environment. This survey provides a comprehensive review of the current state of human video generation, marking, to the best of our knowledge, the first extensive literature review in this domain. We start with an introduction to the fundamentals of human video generation and the evolution of generative models that have facilitated the field's growth. We then examine the main methods employed for three key sub-tasks within human video generation: text-driven, audio-driven, and pose-driven motion generation. These areas are explored concerning the conditions that guide the generation process. Furthermore, we offer a collection of the most commonly utilized datasets and the evaluation metrics that are crucial in assessing the quality and realism of generated videos. The survey concludes with a discussion of the current challenges in the field and suggests possible directions for future research. The goal of this survey is to offer the research community a clear and holistic view of the advancements in human video generation, highlighting the milestones achieved and the challenges that lie ahead.
Abstract（参考訳）: ヒューマンビデオ生成は、テキスト、オーディオ、ポーズなどの制御条件を与えられた生成モデルを用いて2次元の人体ビデオシーケンスを合成することを目的として、動的で急速に進化するタスクである。映画、ゲーム、バーチャルコミュニケーションにおける幅広い応用の可能性を考えると、自然でリアルな人間のビデオを生成する能力は不可欠である。近年の世代モデルの発展は、この分野への関心の高まりに確かな基盤を築き上げている。著しい進歩にもかかわらず、キャラクターの整合性、人間の動きの複雑さ、環境との関わりの難しさなど、人間の映像生成の課題は依然として困難なままである。この調査は、人間のビデオ生成の現状、マーキング、そして私たちの知る限り、この領域における最初の広範な文献レビューの総合的なレビューを提供する。まず、人間のビデオ生成の基本と、フィールドの成長を促進する生成モデルの進化について紹介する。次に、人間のビデオ生成における3つの重要なサブタスク(テキスト駆動、音声駆動、ポーズ駆動のモーション生成)に使用される主要な手法について検討する。これらの領域は、生成過程を導く条件について検討されている。さらに、最もよく利用されるデータセットのコレクションと、生成されたビデオの品質とリアリズムを評価する上で重要な評価指標を提供する。この調査は、この分野における現在の課題に関する議論から締めくくられ、今後の研究の方向性が示唆される。この調査の目的は、人間のビデオ生成の進歩について、研究コミュニティに明確で総合的な視点を提供することであり、達成されたマイルストーンと今後の課題を強調している。

関連論文リスト

3D Human Interaction Generation: A Survey [25.736432845850576]
3Dヒューマンインタラクション生成は、人間と対話的な実体の間の動的かつ文脈的に関連する相互作用を生成することに焦点を当てる。近年,3次元モデル表現法,モーションキャプチャ技術,生成モデルが発展し,この分野への関心が高まっている。この領域の急速な進歩にもかかわらず、人間の運動生成における自然性の必要性と人間と対話的な実体との正確な相互作用が課題である。
論文参考訳（メタデータ） (2025-03-17T12:47:33Z)
What Are You Doing? A Closer Look at Controllable Human Video Generation [73.89117620413724]
What Are You Doing?」は、人間の制御可能な画像とビデオの生成を評価するための新しいベンチマークである。このビデオは、1,544本のキャプション付きビデオで構成されており、56の細かなカテゴリーで細かな収集と注釈付けがなされている。制御可能な画像・映像生成における7つの最先端モデルの詳細な解析を行う。
論文参考訳（メタデータ） (2025-03-06T17:59:29Z)
ASurvey: Spatiotemporal Consistency in Video Generation [72.82267240482874]
動的視覚生成手法を利用した映像生成手法は人工知能生成コンテンツ(AIGC)の境界を押し下げる最近の研究は、映像生成における時間的一貫性の問題に対処することを目的としているが、この観点からの文献レビューはほとんど行われていない。基礎モデル,情報表現,生成スキーム,後処理技術,評価指標の5つの重要な側面を網羅して,映像生成の最近の進歩を体系的に検討した。
論文参考訳（メタデータ） (2025-02-25T05:20:51Z)
OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文参考訳（メタデータ） (2024-11-28T07:01:06Z)
Deepfake Generation and Detection: A Benchmark and Survey [134.19054491600832]
Deepfakeは、特定の条件下で非常にリアルな顔画像やビデオを作成するための技術だ。この調査は、ディープフェイクの発生と検出の最新の展開を包括的にレビューする。本研究では, 顔交換, 顔再現, 話し顔生成, 顔属性編集の4つの代表的なディープフェイク分野の研究に焦点をあてる。
論文参考訳（メタデータ） (2024-03-26T17:12:34Z)
A Survey on Long Video Generation: Challenges, Methods, and Prospects [36.58662591921549]
本稿では,近年の長編ビデオ生成の進歩に関する最初の調査について述べる。それらを2つの重要なパラダイム、すなわち時間的自己回帰の分割と征服にまとめる。本稿では,長期ビデオ生成研究の進展に欠かせないデータセットと評価指標の包括的概要と分類について述べる。
論文参考訳（メタデータ） (2024-03-25T03:47:53Z)
Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-03-13T16:05:18Z)
Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [30.245348014602577]
本稿では,テキストからの映像生成の進化について論じる。まずMNISTの数値をアニメーション化し,ソラで物理世界をシミュレートする。 Soraが生成するビデオの欠点に関するレビューでは、ビデオ生成の様々な実現可能な側面において、より深い研究を求める声が浮き彫りになっている。テキスト・ビデオ・ジェネレーションの研究は、まだ初期段階であり、学際的な研究コミュニティからの貢献が必要であると結論付けている。
論文参考訳（メタデータ） (2024-03-08T07:58:13Z)
Human Motion Generation: A Survey [67.38982546213371]
人間の動き生成は、自然の人間のポーズシーケンスを生成し、現実世界の応用に大きな可能性を示すことを目的としている。この分野のほとんどの研究は、テキスト、オーディオ、シーンコンテキストなどの条件信号に基づいて人間の動きを生成することに焦点を当てている。本稿では,人間の動作生成に関する総合的な文献レビューを紹介する。
論文参考訳（メタデータ） (2023-07-20T14:15:20Z)
A Comprehensive Review of Data-Driven Co-Speech Gesture Generation [11.948557523215316]
このような共同音声ジェスチャの自動生成は、コンピュータアニメーションにおける長年の問題である。ジェスチャー生成は最近、人間のジェスチャー動作のデータセットがより大きくなったため、関心が高まっている。本稿では,特に深層生成モデルに着目した共同音声ジェスチャ生成研究を要約する。
論文参考訳（メタデータ） (2023-01-13T00:20:05Z)
StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文参考訳（メタデータ） (2022-04-25T17:55:08Z)
Deep Person Generation: A Survey from the Perspective of Face, Pose and Cloth Synthesis [55.72674354651122]
まず、まず、人物生成の範囲を要約し、それから、最新の進歩と深い人物生成の技術的トレンドを体系的にレビューする。 200以上の論文が網羅的に紹介され、重要な技術的ブレークスルーを見るためにマイルストーンの作業が強調されている。この調査は、ディープ・パーソン・ジェネレーションの将来的な展望に光を当て、デジタル・ヒューマンへの完全な応用のための有用な基盤を提供することを期待している。
論文参考訳（メタデータ） (2021-09-05T14:15:24Z)
Human Motion Transfer from Poses in the Wild [61.6016458288803]
人間の動き伝達の問題に対処し、基準映像からの動きを模倣する対象人物のための新しい動き映像を合成する。推定ポーズを用いて2つのドメインをブリッジするビデオ間翻訳タスクである。トレーニング中に見つからない線内ポーズシーケンスであっても、時間的に一貫性のある高品質なビデオを生成するための新しいポーズ・ツー・ビデオ翻訳フレームワークを提案する。
論文参考訳（メタデータ） (2020-04-07T05:59:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。