論文の概要: Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis
- arxiv url: http://arxiv.org/abs/2401.08503v2
- Date: Sat, 20 Jan 2024 09:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 19:20:10.126819
- Title: Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis
- Title(参考訳): Real3D-Portrait:ワンショットリアルな3Dトーキング・ポートレート合成
- Authors: Zhenhui Ye, Tianyun Zhong, Yi Ren, Jiaqi Yang, Weichuang Li, Jiawei
Huang, Ziyue Jiang, Jinzheng He, Rongjie Huang, Jinglin Liu, Chen Zhang,
Xiang Yin, Zejun Ma, Zhou Zhao
- Abstract要約: ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
- 参考スコア(独自算出の注目度): 90.14937663987037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-shot 3D talking portrait generation aims to reconstruct a 3D avatar from
an unseen image, and then animate it with a reference video or audio to
generate a talking portrait video. The existing methods fail to simultaneously
achieve the goals of accurate 3D avatar reconstruction and stable talking face
animation. Besides, while the existing works mainly focus on synthesizing the
head part, it is also vital to generate natural torso and background segments
to obtain a realistic talking portrait video. To address these limitations, we
present Real3D-Potrait, a framework that (1) improves the one-shot 3D
reconstruction power with a large image-to-plane model that distills 3D prior
knowledge from a 3D face generative model; (2) facilitates accurate
motion-conditioned animation with an efficient motion adapter; (3) synthesizes
realistic video with natural torso movement and switchable background using a
head-torso-background super-resolution model; and (4) supports one-shot
audio-driven talking face generation with a generalizable audio-to-motion
model. Extensive experiments show that Real3D-Portrait generalizes well to
unseen identities and generates more realistic talking portrait videos compared
to previous methods. Video samples and source code are available at
https://real3dportrait.github.io .
- Abstract(参考訳): ワンショットの3Dトーキングポートレート生成は、見えない画像から3Dアバターを再構成し、レファレンスビデオまたはオーディオでアニメーション化し、トーキングポートレートビデオを生成する。
既存の手法では、正確な3dアバター再構成と安定した話し顔アニメーションの目標を同時に達成できない。
また、既存の作品は主に頭部の合成に重点を置いているが、自然の胴体や背景部分を生成してリアルな話し声のポートレートビデオを得ることも重要である。
To address these limitations, we present Real3D-Potrait, a framework that (1) improves the one-shot 3D reconstruction power with a large image-to-plane model that distills 3D prior knowledge from a 3D face generative model; (2) facilitates accurate motion-conditioned animation with an efficient motion adapter; (3) synthesizes realistic video with natural torso movement and switchable background using a head-torso-background super-resolution model; and (4) supports one-shot audio-driven talking face generation with a generalizable audio-to-motion model.
広汎な実験により、Real3D-Portraitは未確認の身元を一般化し、従来の方法と比較してよりリアルな音声肖像画を生成する。
ビデオサンプルとソースコードはhttps://real3dportrait.github.ioで入手できる。
関連論文リスト
- NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - 3D-Aware Talking-Head Video Motion Transfer [20.135083791297603]
本稿では3D対応の対話型ビデオモーション転送ネットワークであるHead3Dを提案する。
Head3Dは、2Dの被写体フレームから視覚的に解釈可能な3Dカノニカルヘッドを生成することにより、被写体外観情報を利用する。
Head3Dは2Dと3Dの先行技術より優れています。
論文 参考訳(メタデータ) (2023-11-05T02:50:45Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Audio-Driven 3D Facial Animation from In-the-Wild Videos [16.76533748243908]
任意のオーディオクリップが与えられたとき、オーディオ駆動の3D顔アニメーションは、ライフスタイルの唇の動きと3Dヘッドのための表情を生成することを目的としている。
既存の方法は、通常、限られた数のオーディオ3Dスキャンペアを含む限られたパブリックな3Dデータセットを使用してモデルをトレーニングすることに依存する。
そこで本研究では,3次元顔アニメーションモデルをトレーニングするために,この2次元対話ヘッドビデオを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T13:53:05Z) - PV3D: A 3D Generative Model for Portrait Video Generation [94.96025739097922]
我々は,多視点一貫した肖像画を合成できる最初の生成フレームワークであるPV3Dを提案する。
PV3Dは、静的ポートレートのアニメーションやビュー一貫性のあるビデオモーション編集など、多くのダウンストリームアプリケーションをサポートすることができる。
論文 参考訳(メタデータ) (2022-12-13T05:42:44Z) - SadTalker: Learning Realistic 3D Motion Coefficients for Stylized
Audio-Driven Single Image Talking Face Animation [33.651156455111916]
本稿では,3DMMの3次元動き係数(頭部ポーズ,表情)を音声から生成するSadTalkerを提案する。
正確には、3Dレンダリングされた顔の両係数を蒸留することにより、音声から正確な表情を学習するExpNetを提案する。
論文 参考訳(メタデータ) (2022-11-22T11:35:07Z) - AniFaceGAN: Animatable 3D-Aware Face Image Generation for Video Avatars [71.00322191446203]
2D生成モデルは、異なるカメラ視点で画像をレンダリングする際に、しばしば望ましくないアーティファクトに悩まされる。
近年,3次元シーン表現を活用することで,3次元カメラポーズのゆがみを明示するために2次元GANを拡張している。
マルチビュー一貫した顔アニメーション生成のためのアニマタブルな3D対応GANを提案する。
論文 参考訳(メタデータ) (2022-10-12T17:59:56Z) - 3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head [13.305263646852087]
3D-TalkEmoは、様々な感情を持つ3Dトークヘッドアニメーションを生成するディープニューラルネットワークです。
私たちはまた、オーディオとビデオの同期、豊富なコーパス、異なる人のさまざまな感情状態を含む大きな3dデータセットも作成します。
論文 参考訳(メタデータ) (2021-04-25T02:48:19Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。