論文の概要: Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis
- arxiv url: http://arxiv.org/abs/2401.08503v3
- Date: Sat, 23 Mar 2024 06:40:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 01:55:44.266116
- Title: Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis
- Title(参考訳): Real3D-Portrait:ワンショットリアルな3Dトーキング・ポートレート合成
- Authors: Zhenhui Ye, Tianyun Zhong, Yi Ren, Jiaqi Yang, Weichuang Li, Jiawei Huang, Ziyue Jiang, Jinzheng He, Rongjie Huang, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao,
- Abstract要約: ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
- 参考スコア(独自算出の注目度): 88.17520303867099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-shot 3D talking portrait generation aims to reconstruct a 3D avatar from an unseen image, and then animate it with a reference video or audio to generate a talking portrait video. The existing methods fail to simultaneously achieve the goals of accurate 3D avatar reconstruction and stable talking face animation. Besides, while the existing works mainly focus on synthesizing the head part, it is also vital to generate natural torso and background segments to obtain a realistic talking portrait video. To address these limitations, we present Real3D-Potrait, a framework that (1) improves the one-shot 3D reconstruction power with a large image-to-plane model that distills 3D prior knowledge from a 3D face generative model; (2) facilitates accurate motion-conditioned animation with an efficient motion adapter; (3) synthesizes realistic video with natural torso movement and switchable background using a head-torso-background super-resolution model; and (4) supports one-shot audio-driven talking face generation with a generalizable audio-to-motion model. Extensive experiments show that Real3D-Portrait generalizes well to unseen identities and generates more realistic talking portrait videos compared to previous methods. Video samples and source code are available at https://real3dportrait.github.io .
- Abstract(参考訳): ワンショットの3Dトーキングポートレート生成は、見えない画像から3Dアバターを再構成し、レファレンスビデオまたはオーディオでアニメーション化し、トーキングポートレートビデオを生成することを目的としている。
既存の手法では、正確な3次元アバター再構成と安定した会話顔アニメーションの目標を同時に達成できない。
また、既存の作品は主に頭部の合成に重点を置いているが、自然の胴体や背景のセグメントを生成してリアルな話し声のポートレートビデオを得ることも不可欠である。
これらの制約に対処するため,(1)3次元顔生成モデルから3次元事前知識を抽出する大型画像-平面モデルによるワンショット3次元再構成能力の向上,(2)高能率なモーションアダプタによる正確な動き調和アニメーションの促進,(3)ヘッド・トーソ・バックグラウンド・スーパーレゾリューションモデルによる自然な胴体運動と切り替え可能な背景の映像の合成,(4)汎用的な音声-移動モデルによるワンショット音声駆動音声合成をサポートするフレームワークであるReal3D-Potraitを提案する。
広汎な実験により、Real3D-Portraitは未確認の身元を一般化し、従来の方法と比較してよりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
ビデオサンプルとソースコードはhttps://real3dportrait.github.ioで公開されている。
関連論文リスト
- NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - 3D-Aware Talking-Head Video Motion Transfer [20.135083791297603]
本稿では3D対応の対話型ビデオモーション転送ネットワークであるHead3Dを提案する。
Head3Dは、2Dの被写体フレームから視覚的に解釈可能な3Dカノニカルヘッドを生成することにより、被写体外観情報を利用する。
Head3Dは2Dと3Dの先行技術より優れています。
論文 参考訳(メタデータ) (2023-11-05T02:50:45Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Audio-Driven 3D Facial Animation from In-the-Wild Videos [16.76533748243908]
任意のオーディオクリップが与えられたとき、オーディオ駆動の3D顔アニメーションは、ライフスタイルの唇の動きと3Dヘッドのための表情を生成することを目的としている。
既存の方法は、通常、限られた数のオーディオ3Dスキャンペアを含む限られたパブリックな3Dデータセットを使用してモデルをトレーニングすることに依存する。
そこで本研究では,3次元顔アニメーションモデルをトレーニングするために,この2次元対話ヘッドビデオを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T13:53:05Z) - PV3D: A 3D Generative Model for Portrait Video Generation [94.96025739097922]
我々は,多視点一貫した肖像画を合成できる最初の生成フレームワークであるPV3Dを提案する。
PV3Dは、静的ポートレートのアニメーションやビュー一貫性のあるビデオモーション編集など、多くのダウンストリームアプリケーションをサポートすることができる。
論文 参考訳(メタデータ) (2022-12-13T05:42:44Z) - SadTalker: Learning Realistic 3D Motion Coefficients for Stylized
Audio-Driven Single Image Talking Face Animation [33.651156455111916]
本稿では,3DMMの3次元動き係数(頭部ポーズ,表情)を音声から生成するSadTalkerを提案する。
正確には、3Dレンダリングされた顔の両係数を蒸留することにより、音声から正確な表情を学習するExpNetを提案する。
論文 参考訳(メタデータ) (2022-11-22T11:35:07Z) - AniFaceGAN: Animatable 3D-Aware Face Image Generation for Video Avatars [71.00322191446203]
2D生成モデルは、異なるカメラ視点で画像をレンダリングする際に、しばしば望ましくないアーティファクトに悩まされる。
近年,3次元シーン表現を活用することで,3次元カメラポーズのゆがみを明示するために2次元GANを拡張している。
マルチビュー一貫した顔アニメーション生成のためのアニマタブルな3D対応GANを提案する。
論文 参考訳(メタデータ) (2022-10-12T17:59:56Z) - 3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head [13.305263646852087]
3D-TalkEmoは、様々な感情を持つ3Dトークヘッドアニメーションを生成するディープニューラルネットワークです。
私たちはまた、オーディオとビデオの同期、豊富なコーパス、異なる人のさまざまな感情状態を含む大きな3dデータセットも作成します。
論文 参考訳(メタデータ) (2021-04-25T02:48:19Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。