論文の概要: PV3D: A 3D Generative Model for Portrait Video Generation
- arxiv url: http://arxiv.org/abs/2212.06384v3
- Date: Wed, 21 Jun 2023 02:13:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 17:53:38.083195
- Title: PV3D: A 3D Generative Model for Portrait Video Generation
- Title(参考訳): PV3D: 画像生成のための3次元生成モデル
- Authors: Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Wenqing Zhang, Song Bai,
Jiashi Feng, Mike Zheng Shou
- Abstract要約: 我々は,多視点一貫した肖像画を合成できる最初の生成フレームワークであるPV3Dを提案する。
PV3Dは、静的ポートレートのアニメーションやビュー一貫性のあるビデオモーション編集など、多くのダウンストリームアプリケーションをサポートすることができる。
- 参考スコア(独自算出の注目度): 94.96025739097922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative adversarial networks (GANs) have demonstrated
the capabilities of generating stunning photo-realistic portrait images. While
some prior works have applied such image GANs to unconditional 2D portrait
video generation and static 3D portrait synthesis, there are few works
successfully extending GANs for generating 3D-aware portrait videos. In this
work, we propose PV3D, the first generative framework that can synthesize
multi-view consistent portrait videos. Specifically, our method extends the
recent static 3D-aware image GAN to the video domain by generalizing the 3D
implicit neural representation to model the spatio-temporal space. To introduce
motion dynamics to the generation process, we develop a motion generator by
stacking multiple motion layers to generate motion features via modulated
convolution. To alleviate motion ambiguities caused by camera/human motions, we
propose a simple yet effective camera condition strategy for PV3D, enabling
both temporal and multi-view consistent video generation. Moreover, PV3D
introduces two discriminators for regularizing the spatial and temporal domains
to ensure the plausibility of the generated portrait videos. These elaborated
designs enable PV3D to generate 3D-aware motion-plausible portrait videos with
high-quality appearance and geometry, significantly outperforming prior works.
As a result, PV3D is able to support many downstream applications such as
animating static portraits and view-consistent video motion editing. Code and
models are released at https://showlab.github.io/pv3d.
- Abstract(参考訳): 最近のgans(generative adversarial networks)の進歩は、素晴らしい写真リアルなポートレート画像を生成する能力を示している。
このような画像ganを無条件の2dポートレートビデオ生成や静的3dポートレート合成に適用する先行作品もあるが、3d対応のポートレートビデオを生成するためにganを拡張させる作品はほとんどない。
本研究では,多視点一貫した肖像画を合成できる最初の生成フレームワークであるPV3Dを提案する。
具体的には、3次元暗黙的ニューラル表現を一般化して時空間をモデル化することにより、最近の静的3D認識画像GANをビデオ領域に拡張する。
生成プロセスにモーションダイナミクスを導入するため,複数の動作層を積み重ねて,変調畳み込みによる動作特徴を生成するモーションジェネレータを開発した。
カメラ/ヒューマンモーションによる動作の曖昧さを軽減するため,pv3dの簡易かつ効果的なカメラ条件戦略を提案する。
さらにpv3dは、空間領域と時間領域を規則化し、生成されたポートレートビデオの信頼性を確保する2つの識別器を導入する。
これらの精巧なデザインにより、PV3Dは高品質な外観と幾何学を持つ3D対応の動画を制作することができる。
その結果、PV3Dは静的ポートレートのアニメーションやビュー一貫性のあるビデオモーション編集など、多くのダウンストリームアプリケーションをサポートできるようになった。
コードとモデルはhttps://showlab.github.io/pv3dでリリースされる。
関連論文リスト
- Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文 参考訳(メタデータ) (2024-09-11T17:58:57Z) - Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。
我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文 参考訳(メタデータ) (2024-06-19T22:20:03Z) - Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion [3.545941891218148]
本稿では,現在のアプローチのように時間とともに多視点一貫性を明示的に実施する必要があるか,あるいはモデルが各タイムステップの3次元表現を独立に生成するのに十分なのかを検討する。
本稿では,2次元映像拡散を利用して3次元映像を生成するモデルVid3Dを提案する。
論文 参考訳(メタデータ) (2024-06-17T04:09:04Z) - OneTo3D: One Image to Re-editable Dynamic 3D Model and Video Generation [0.0]
編集可能なダイナミック3Dモデルとビデオ生成のための1つの画像は、単一の画像の研究領域を3D表現や画像の3D再構成に変換する新しい方向と変化である。
編集可能な3Dモデルを生成し,対象とする連続時間無制限の3Dビデオを生成するために,単一の画像を使用する方法と理論であるOneTo3Dを提案する。
論文 参考訳(メタデータ) (2024-05-10T15:44:11Z) - V3D: Video Diffusion Models are Effective 3D Generators [19.33837029942662]
本稿では、事前学習したビデオ拡散モデルの世界シミュレーション能力を活用して、3D生成を容易にするV3Dを紹介する。
これを利用して、最先端のビデオ拡散モデルを微調整して、1つの画像が与えられた物体を囲む360度軌道フレームを生成することができる。
提案手法はシーンレベルの新規ビュー合成に拡張可能であり,スパース・インプット・ビューによるカメラ・パスの正確な制御を実現する。
論文 参考訳(メタデータ) (2024-03-11T14:03:36Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - HyperStyle3D: Text-Guided 3D Portrait Stylization via Hypernetworks [101.36230756743106]
本論文は,2次元画像の中間表現として,2次元領域と3次元領域を3次元フィールドで橋渡しする3次元GANの成功に着想を得たものである。
本稿では,3次元ポートレートスタイリングのための3次元認識型GANをベースとしたHyperStyle3Dという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T07:22:05Z) - 3D-Aware Video Generation [149.5230191060692]
本研究では, 3D 対応ビデオの生成を学習する 4 次元生成敵ネットワーク (GAN) について検討する。
神経暗黙表現と時間認識判別器を組み合わせることで,モノクラービデオのみを教師する3D映像を合成するGANフレームワークを開発した。
論文 参考訳(メタデータ) (2022-06-29T17:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。