論文の概要: GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2404.14037v1
- Date: Mon, 22 Apr 2024 09:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 14:26:08.617211
- Title: GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting
- Title(参考訳): GaussianTalker: 3D Gaussian Splattingによる話者特異的トーキングヘッド合成
- Authors: Hongyun Yu, Zhan Qu, Qihang Yu, Jianchuan Chen, Zhonghua Jiang, Zhiwen Chen, Shengyu Zhang, Jimin Xu, Fei Wu, Chengfei Lv, Gang Yu,
- Abstract要約: GaussianTalkerは3D Gaussian Splattingに基づく音声駆動音声ヘッド合成手法である。
話者固有のモーショントランスレータは、普遍化音声特徴抽出により、対象話者固有の正確な唇の動きを達成する。
Dynamic Gaussian Rendererは話者固有のBlendShapesを導入し、潜在ポーズを通じて顔の詳細表現を強化する。
- 参考スコア(独自算出の注目度): 27.699313086744237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works on audio-driven talking head synthesis using Neural Radiance Fields (NeRF) have achieved impressive results. However, due to inadequate pose and expression control caused by NeRF implicit representation, these methods still have some limitations, such as unsynchronized or unnatural lip movements, and visual jitter and artifacts. In this paper, we propose GaussianTalker, a novel method for audio-driven talking head synthesis based on 3D Gaussian Splatting. With the explicit representation property of 3D Gaussians, intuitive control of the facial motion is achieved by binding Gaussians to 3D facial models. GaussianTalker consists of two modules, Speaker-specific Motion Translator and Dynamic Gaussian Renderer. Speaker-specific Motion Translator achieves accurate lip movements specific to the target speaker through universalized audio feature extraction and customized lip motion generation. Dynamic Gaussian Renderer introduces Speaker-specific BlendShapes to enhance facial detail representation via a latent pose, delivering stable and realistic rendered videos. Extensive experimental results suggest that GaussianTalker outperforms existing state-of-the-art methods in talking head synthesis, delivering precise lip synchronization and exceptional visual quality. Our method achieves rendering speeds of 130 FPS on NVIDIA RTX4090 GPU, significantly exceeding the threshold for real-time rendering performance, and can potentially be deployed on other hardware platforms.
- Abstract(参考訳): 近年,Neural Radiance Fields (NeRF) を用いた音声駆動音声頭合成の研究が目覚ましい成果を上げている。
しかし、NeRFの暗黙的表現によって引き起こされるポーズや表現制御が不十分なため、これらの手法には、アンシンクロナイズドや不自然な唇の動き、視覚ジッタや人工物など、いくつかの制限がある。
本稿では,3次元ガウススプラッティングに基づく音声駆動音声ヘッド合成手法であるガウス話者を提案する。
3次元ガウスの明示的な表現特性により、ガウスを3次元顔モデルに結合することで、顔の動きの直感的な制御が達成される。
GaussianTalkerは、話者固有のMotion TranslatorとDynamic Gaussian Rendererの2つのモジュールで構成されている。
話者固有のモーショントランスレータは、汎用音声特徴抽出とカスタマイズされた唇動作生成により、対象話者固有の正確な唇動作を実現する。
Dynamic Gaussian Rendererは、話者固有のBlendShapesを導入し、潜在ポーズを通じて顔の詳細表現を強化し、安定的でリアルなレンダリングビデオを提供する。
広汎な実験結果から,GaussianTalkerは,音声頭部合成における既存の最先端手法よりも優れ,正確な唇同期と例外的な視覚的品質を実現することが示唆された。
提案手法は,NVIDIA RTX4090 GPU上で130FPSのレンダリング速度を実現し,リアルタイムレンダリング性能のしきい値を大幅に上回り,他のハードウェアプラットフォームにデプロイする可能性がある。
関連論文リスト
- GSTalker: Real-time Audio-Driven Talking Face Generation via Deformable Gaussian Splatting [57.59261043916292]
GStalker(GStalker)は、ガウシアン・スプラッティング(英語版)による3D音声駆動の音声顔生成モデルである。
高速なトレーニングとリアルタイムレンダリング速度で、高忠実度とオーディオリップの同期結果を生成することができる。
論文 参考訳(メタデータ) (2024-04-29T18:28:36Z) - GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting [25.78134656333095]
ポーズ制御可能な音声ヘッドをリアルタイムに生成するための新しいフレームワークを提案する。
GaussianTalkerは、ヘッドの標準的な3DGS表現を構築し、オーディオと同期して変形する。
空間認識機能を活用し、近隣の点間の相互作用を強制する。
論文 参考訳(メタデータ) (2024-04-24T17:45:24Z) - Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior [29.120669908374424]
本研究では,Talk3Dと呼ばれる新しい音声駆動音声ヘッド合成フレームワークを提案する。
予め訓練された3D認識生成前を効果的に活用することにより、そのもっともらしい顔のジオメトリを忠実に再構築することができる。
提案手法は,既存の手法と比較して,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。
論文 参考訳(メタデータ) (2024-03-29T12:49:40Z) - GaussianStyle: Gaussian Head Avatar via StyleGAN [64.85782838199427]
本稿では,3DGSのボリューム強度とStyleGANの強力な暗黙表現を統合する新しいフレームワークを提案する。
提案手法は, 再現性, 新規なビュー合成, アニメーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-01T18:14:42Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial
Decomposition [61.6677901687009]
我々は,音声画像のリアルタイム合成を可能にする,効率的なNeRFベースのフレームワークを提案する。
提案手法は,リアルタイム・オーディオ・リップ同期音声ポートレートビデオを生成する。
論文 参考訳(メタデータ) (2022-11-22T16:03:11Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。