論文の概要: Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head
Synthesis
- arxiv url: http://arxiv.org/abs/2207.11770v1
- Date: Sun, 24 Jul 2022 16:46:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:42:31.618343
- Title: Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head
Synthesis
- Title(参考訳): Few-Shot Talking Head Synthesisのための動的顔放射場学習
- Authors: Shuai Shen, Wanhua Li, Zheng Zhu, Yueqi Duan, Jie Zhou, Jiwen Lu
- Abstract要約: 音声音声音声合成のための動的顔放射場(DFRF)を提案する。
DFRF条件は2次元外観画像上の放射界を呈示し、先行した顔の学習を行う。
実験により、DFRFは40kの反復しか持たない新しいアイデンティティのために、自然で高品質な音声駆動音声ヘッドビデオを合成できることが示された。
- 参考スコア(独自算出の注目度): 90.43371339871105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking head synthesis is an emerging technology with wide applications in
film dubbing, virtual avatars and online education. Recent NeRF-based methods
generate more natural talking videos, as they better capture the 3D structural
information of faces. However, a specific model needs to be trained for each
identity with a large dataset. In this paper, we propose Dynamic Facial
Radiance Fields (DFRF) for few-shot talking head synthesis, which can rapidly
generalize to an unseen identity with few training data. Different from the
existing NeRF-based methods which directly encode the 3D geometry and
appearance of a specific person into the network, our DFRF conditions face
radiance field on 2D appearance images to learn the face prior. Thus the facial
radiance field can be flexibly adjusted to the new identity with few reference
images. Additionally, for better modeling of the facial deformations, we
propose a differentiable face warping module conditioned on audio signals to
deform all reference images to the query space. Extensive experiments show that
with only tens of seconds of training clip available, our proposed DFRF can
synthesize natural and high-quality audio-driven talking head videos for novel
identities with only 40k iterations. We highly recommend readers view our
supplementary video for intuitive comparisons. Code is available in
https://sstzal.github.io/DFRF/.
- Abstract(参考訳): トーキングヘッド合成は、フィルムダビング、仮想アバター、オンライン教育に広く応用されている新興技術である。
最近のNeRFベースの手法は、顔の3D構造情報をよりよく捉えるため、より自然な会話ビデオを生成する。
しかし、特定のモデルは、大きなデータセットで各アイデンティティのためにトレーニングする必要がある。
本稿では,少ないトレーニングデータで識別できない同一性に迅速に一般化可能な,少数発発発発発声頭部合成のための動的顔放射場(dfrf)を提案する。
ネットワーク内で特定の人物の3次元形状と外観を直接エンコードする既存のnerfベースの方法とは異なり、dfrf条件は2次元の外観画像上で放射能場に直面し、事前に顔を学ぶ。
これにより、顔放射野は、参照画像が少ない新しいアイデンティティに柔軟に調整することができる。
さらに, 顔の変形をモデル化するために, 音声信号に条件付き可変顔整形モジュールを提案し, クエリ空間への参照画像のデフォルメを行う。
提案するdfrfは,数十秒のトレーニングクリップを利用可能にすることで,40kのイテレーションで新たなアイデンティティを実現するために,自然で高品質な音声駆動型音声ヘッドビデオを合成できることが実証された。
読者は直感的な比較のために補足ビデオを見ることを強く推奨する。
コードはhttps://sstzal.github.io/dfrf/で入手できる。
関連論文リスト
- NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior [29.120669908374424]
本研究では,Talk3Dと呼ばれる新しい音声駆動音声ヘッド合成フレームワークを提案する。
予め訓練された3D認識生成前を効果的に活用することにより、そのもっともらしい顔のジオメトリを忠実に再構築することができる。
提案手法は,既存の手法と比較して,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。
論文 参考訳(メタデータ) (2024-03-29T12:49:40Z) - Single-Shot Implicit Morphable Faces with Consistent Texture
Parameterization [91.52882218901627]
本稿では,3次元形態素な顔モデルを構築するための新しい手法を提案する。
本手法は, 最先端手法と比較して, フォトリアリズム, 幾何, 表現精度を向上する。
論文 参考訳(メタデータ) (2023-05-04T17:58:40Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - 3DMM-RF: Convolutional Radiance Fields for 3D Face Modeling [111.98096975078158]
本稿では,1つのパスを1つのパスで合成し,必要なニューラルネットワークのレンダリングサンプルのみを合成するスタイルベースの生成ネットワークを提案する。
このモデルは、任意のポーズと照明の顔画像に正確に適合し、顔の特徴を抽出し、制御可能な条件下で顔を再レンダリングするために使用できることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:28:45Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - MoFaNeRF: Morphable Facial Neural Radiance Field [12.443638713719357]
MoFaNeRFは、自由視点画像をベクトル空間で符号化された顔の形、表情、外観にマッピングするパラメトリックモデルである。
識別特異的変調とエンコーダテクスチャを導入することにより、正確な測光の詳細を合成する。
本モデルでは,画像ベースのフィッティング,ランダム生成,顔リギング,顔編集,新しいビューなど,複数のアプリケーションに強い能力を示す。
論文 参考訳(メタデータ) (2021-12-04T11:25:28Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。