論文の概要: Parametric Implicit Face Representation for Audio-Driven Facial
Reenactment
- arxiv url: http://arxiv.org/abs/2306.07579v1
- Date: Tue, 13 Jun 2023 07:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 14:52:08.426582
- Title: Parametric Implicit Face Representation for Audio-Driven Facial
Reenactment
- Title(参考訳): 音響駆動型顔面再現のためのパラメトリックインシシット顔表現法
- Authors: Ricong Huang, Peiwen Lai, Yipeng Qin, Guanbin Li
- Abstract要約: 本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。
提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
- 参考スコア(独自算出の注目度): 52.33618333954383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven facial reenactment is a crucial technique that has a range of
applications in film-making, virtual avatars and video conferences. Existing
works either employ explicit intermediate face representations (e.g., 2D facial
landmarks or 3D face models) or implicit ones (e.g., Neural Radiance Fields),
thus suffering from the trade-offs between interpretability and expressive
power, hence between controllability and quality of the results. In this work,
we break these trade-offs with our novel parametric implicit face
representation and propose a novel audio-driven facial reenactment framework
that is both controllable and can generate high-quality talking heads.
Specifically, our parametric implicit representation parameterizes the implicit
representation with interpretable parameters of 3D face models, thereby taking
the best of both explicit and implicit methods. In addition, we propose several
new techniques to improve the three components of our framework, including i)
incorporating contextual information into the audio-to-expression parameters
encoding; ii) using conditional image synthesis to parameterize the implicit
representation and implementing it with an innovative tri-plane structure for
efficient learning; iii) formulating facial reenactment as a conditional image
inpainting problem and proposing a novel data augmentation technique to improve
model generalizability. Extensive experiments demonstrate that our method can
generate more realistic results than previous methods with greater fidelity to
the identities and talking styles of speakers.
- Abstract(参考訳): 音声による顔の再現は、映画製作、バーチャルアバター、ビデオ会議に幅広い応用をもたらす重要な技術である。
既存の作品では、明示的な中間的な顔表現(例:2d顔ランドマークまたは3d顔モデル)や暗黙の表現(例:神経放射野)を使用しており、解釈可能性と表現力の間のトレードオフに苦しめられている。
本稿では,これらのトレードオフをパラメトリックな暗黙的な顔表現で解消し,制御可能で高品質な発話ヘッドを生成することのできる,新たな音声駆動顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化し、明示的および暗示的の両方の手法を最大限に活用する。
さらに,フレームワークの3つのコンポーネントを改善するための新しい手法をいくつか提案する。
一 音声対表現パラメータエンコーディングにコンテクスト情報を組み込むこと。
二 条件付き画像合成を用いて、暗黙表現をパラメータ化し、効率的な学習のための革新的な三面体構造で実装すること。
三 条件付き画像塗布問題として顔再現を定式化し、モデル一般化性を向上させるための新しいデータ拡張技術を提案すること。
実験により, 話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られることを示した。
関連論文リスト
- Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior [29.120669908374424]
本研究では,Talk3Dと呼ばれる新しい音声駆動音声ヘッド合成フレームワークを提案する。
予め訓練された3D認識生成前を効果的に活用することにより、そのもっともらしい顔のジオメトリを忠実に再構築することができる。
提案手法は,既存の手法と比較して,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。
論文 参考訳(メタデータ) (2024-03-29T12:49:40Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks,
Methods, and Applications [20.842799581850617]
音声信号から3次元顔形状を推定する作業について検討する。
既存の作業は主に決定論的であり、限られた話者を持つ小さなデータセット上で、音声信号から3D顔メッシュへの1対1のマッピングを学ぶことに集中している。
論文 参考訳(メタデータ) (2023-11-30T01:14:43Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural
Radiance Field [81.07651217942679]
トーキングヘッド生成は、ソース画像の識別情報を保持し、駆動画像の動作を模倣する顔を生成することを目的としている。
我々は高忠実かつ自由視点の対話ヘッド合成を実現するHiDe-NeRFを提案する。
論文 参考訳(メタデータ) (2023-04-11T09:47:35Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - Everything's Talkin': Pareidolia Face Reenactment [119.49707201178633]
pareidolia face reenactmentは、ビデオ中の人間の顔とタンデムで動く静的なイラストリーフェイスのアニメーションと定義されている。
顔再現法と従来の顔再現法との差異が大きいため, 形状のばらつきとテクスチャのばらつきが導入された。
この2つの課題に取り組むために,新しいパラメトリック非教師なし再現アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-07T11:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。