論文の概要: AMG: Avatar Motion Guided Video Generation
- arxiv url: http://arxiv.org/abs/2409.01502v1
- Date: Mon, 2 Sep 2024 23:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 03:35:27.492771
- Title: AMG: Avatar Motion Guided Video Generation
- Title(参考訳): AMG:アバターモーションガイドビデオジェネレーション
- Authors: Zhangsihao Yang, Mengyi Shan, Mohammad Farazi, Wenhui Zhu, Yanxi Chen, Xuanzhao Dong, Yalin Wang,
- Abstract要約: 本稿では,3次元アバターの制御レンダリングにビデオ拡散モデルを適用し,2次元フォトリアリズムと3次元制御性を組み合わせたAMGを提案する。
AMGは、カメラの位置、人間の動き、背景スタイルを正確に制御し、多人数拡散ビデオ生成を可能にする最初の方法である。
- 参考スコア(独自算出の注目度): 5.82136706118236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human video generation task has gained significant attention with the advancement of deep generative models. Generating realistic videos with human movements is challenging in nature, due to the intricacies of human body topology and sensitivity to visual artifacts. The extensively studied 2D media generation methods take advantage of massive human media datasets, but struggle with 3D-aware control; whereas 3D avatar-based approaches, while offering more freedom in control, lack photorealism and cannot be harmonized seamlessly with background scene. We propose AMG, a method that combines the 2D photorealism and 3D controllability by conditioning video diffusion models on controlled rendering of 3D avatars. We additionally introduce a novel data processing pipeline that reconstructs and renders human avatar movements from dynamic camera videos. AMG is the first method that enables multi-person diffusion video generation with precise control over camera positions, human motions, and background style. We also demonstrate through extensive evaluation that it outperforms existing human video generation methods conditioned on pose sequences or driving videos in terms of realism and adaptability.
- Abstract(参考訳): 人間の映像生成タスクは、深層生成モデルの進歩によって大きな注目を集めている。
人間の動きでリアルなビデオを生成することは、人間の身体トポロジーの複雑さと視覚的アーティファクトへの敏感さのため、自然界では難しい。
広範に研究されている2Dメディア生成手法は、巨大な人間のメディアデータセットを活用するが、3Dアバターベースのアプローチとは対照的に、3Dアバターベースのアプローチは、コントロールの自由度を高めながら、フォトリアリズムを欠き、背景シーンとシームレスに調和できない。
本稿では,3次元アバターの制御レンダリングにビデオ拡散モデルを適用し,2次元フォトリアリズムと3次元制御性を組み合わせたAMGを提案する。
また、ダイナミックカメラビデオから人間のアバターの動きを再構成しレンダリングする新しいデータ処理パイプラインも導入する。
AMGは、カメラの位置、人間の動き、背景スタイルを正確に制御し、多人数拡散ビデオ生成を可能にする最初の方法である。
また,提案手法は,ポーズシーケンスや動画の駆動に係わる既存の映像生成手法を,現実性と適応性の観点から上回っていることを示す。
関連論文リスト
- HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから著作権のない実世界のビデオの膨大なコレクションをコンパイルします。
合成データについては,2300件の著作権のない3Dアバター資産を収集し,既存の3D資産を拡大する。
論文 参考訳(メタデータ) (2024-07-24T17:15:58Z) - Humans in 4D: Reconstructing and Tracking Humans with Transformers [72.50856500760352]
我々は、人間を再構築し、時間とともに追跡するアプローチを提案する。
このアプローチの中核として、人間のメッシュリカバリのためのネットワークの完全な"トランスフォーマライズ"バージョンを提案する。
このネットワークであるHMR 2.0は、芸術の状態を前進させ、過去に1枚の画像から再構成することが困難であった異常なポーズを分析する能力を示す。
論文 参考訳(メタデータ) (2023-05-31T17:59:52Z) - AG3D: Learning to Generate 3D Avatars from 2D Image Collections [96.28021214088746]
本稿では,2次元画像から現実的な3次元人物の新たな逆生成モデルを提案する。
本手法は, 全身型3Dジェネレータを用いて, 体の形状と変形を捉える。
提案手法は, 従来の3次元・調音認識手法よりも幾何的, 外観的に優れていた。
論文 参考訳(メタデータ) (2023-05-03T17:56:24Z) - DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z) - Physically Plausible Animation of Human Upper Body from a Single Image [41.027391105867345]
制御可能で動的に応答し,フォトリアリスティックな人間のアニメーションを生成する新しい方法を提案する。
本システムでは,画像空間におけるインタラクションを用いて,物理的に可視な上半身アニメーション(PUBA)を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T09:36:59Z) - AvatarGen: a 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、多様な外観を持つ非剛体世代だけでなく、ポーズや視点の完全な制御を可能にする最初の方法である。
非剛性力学をモデル化するために、正準空間におけるポーズ依存的な変形を学習するための変形ネットワークを導入する。
提案手法は,高品質な外観と幾何モデルを備えたアニマタブルな人体アバターを生成でき,従来の3D GANよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-08-01T01:27:02Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - 4D Human Body Capture from Egocentric Video via 3D Scene Grounding [38.3169520384642]
本稿では,モノクラーエゴセントリックビデオから2人称3D人体メッシュの時系列を再構築する新しい課題を紹介する。
エゴセントリックなビデオのユニークな視点と迅速なカメラの動きは、人間の身体を捉えるための技術的な障壁を増す。
論文 参考訳(メタデータ) (2020-11-26T15:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。