論文の概要: TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2404.15264v2
- Date: Fri, 5 Jul 2024 04:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 23:14:17.297573
- Title: TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting
- Title(参考訳): TalkingGaussian: Gaussian Splattingによる構造持続型3次元音声頭合成
- Authors: Jiahe Li, Jiawei Zhang, Xiao Bai, Jin Zheng, Xin Ning, Jun Zhou, Lin Gu,
- Abstract要約: 本研究では,高忠実度音声ヘッド合成のための変形型放射場フレームワークであるTalkingGaussianを紹介する。
提案手法は, 従来の方法と比較して, 顔の忠実度と効率性を向上し, 高品質な唇同期音声ヘッドビデオを生成する。
- 参考スコア(独自算出の注目度): 21.474938045227702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radiance fields have demonstrated impressive performance in synthesizing lifelike 3D talking heads. However, due to the difficulty in fitting steep appearance changes, the prevailing paradigm that presents facial motions by directly modifying point appearance may lead to distortions in dynamic regions. To tackle this challenge, we introduce TalkingGaussian, a deformation-based radiance fields framework for high-fidelity talking head synthesis. Leveraging the point-based Gaussian Splatting, facial motions can be represented in our method by applying smooth and continuous deformations to persistent Gaussian primitives, without requiring to learn the difficult appearance change like previous methods. Due to this simplification, precise facial motions can be synthesized while keeping a highly intact facial feature. Under such a deformation paradigm, we further identify a face-mouth motion inconsistency that would affect the learning of detailed speaking motions. To address this conflict, we decompose the model into two branches separately for the face and inside mouth areas, therefore simplifying the learning tasks to help reconstruct more accurate motion and structure of the mouth region. Extensive experiments demonstrate that our method renders high-quality lip-synchronized talking head videos, with better facial fidelity and higher efficiency compared with previous methods.
- Abstract(参考訳): 放射場は、ライフライクな3D音声ヘッドを合成する際、印象的な性能を示した。
しかし, 急激な外観変化の適応が困難であることから, 顔の動きを直接修正することで動的領域の歪みが生じる可能性がある。
この課題に対処するために,高忠実な音声ヘッド合成のための変形型放射場フレームワークであるTalkingGaussianを紹介する。
点ベースガウススプラッティングを応用した顔の動きは、従来の手法のような難易度変化を学習することなく、スムーズで連続的な変形を持続的なガウスプリミティブに適用することで、我々の方法で表現することができる。
この単純化により、高度に無傷な顔の特徴を維持しつつ、正確な顔の動きを合成することができる。
このような変形パラダイムの下では、詳細な発話動作の学習に影響を及ぼすような、対面運動の不整合をさらに特定する。
この対立に対処するために、我々は、モデルを顔と口の内側の2つの枝に分割し、学習タスクを簡素化し、より正確な口の領域の動きと構造を再構築する。
大規模な実験により, 従来の方法に比べて顔の忠実度が良く, 効率も良く, 高品質な唇同期音声ヘッドビデオが得られた。
関連論文リスト
- GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Parametric Implicit Face Representation for Audio-Driven Facial
Reenactment [52.33618333954383]
本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。
提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-06-13T07:08:22Z) - One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural
Radiance Field [81.07651217942679]
トーキングヘッド生成は、ソース画像の識別情報を保持し、駆動画像の動作を模倣する顔を生成することを目的としている。
我々は高忠実かつ自由視点の対話ヘッド合成を実現するHiDe-NeRFを提案する。
論文 参考訳(メタデータ) (2023-04-11T09:47:35Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - Expression-preserving face frontalization improves visually assisted
speech processing [35.647888055229956]
本論文の主な貢献は,非剛性顔の変形を保存したフロンダル化手法である。
深層学習パイプラインに組み込むと、音声認識と音声の不信度スコアがかなりの差で向上することを示す。
論文 参考訳(メタデータ) (2022-04-06T13:22:24Z) - ImFace: A Nonlinear 3D Morphable Face Model with Implicit Neural
Representations [21.389170615787368]
本稿では,暗黙のニューラル表現を持つ非線形かつ連続的な空間を学習するために,新しい3次元顔モデルImFaceを提案する。
2つの明示的に非交叉な変形場を構築し、それぞれアイデンティティと表現に関連する複雑な形状をモデル化し、表現の埋め込みを拡張するための改良された学習戦略を設計する。
ImFaceに加えて、暗黙の表現における水密入力要求の問題に対処するために、効果的な前処理パイプラインが提案されている。
論文 参考訳(メタデータ) (2022-03-28T05:37:59Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。