論文の概要: Toward Fine-Grained Facial Control in 3D Talking Head Generation
- arxiv url: http://arxiv.org/abs/2602.09736v1
- Date: Tue, 10 Feb 2026 12:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.536513
- Title: Toward Fine-Grained Facial Control in 3D Talking Head Generation
- Title(参考訳): 3次元トーキングヘッド生成におけるファイングラインド顔制御に向けて
- Authors: Shaoyang Xie, Xiaofeng Cong, Baosheng Yu, Zhipeng Gui, Jie Gui, Yuan Yan Tang, James Tin-Yau Kwok,
- Abstract要約: Fine-Grained 3D Gaussian Splattingは、時間的に一貫した高忠実なヘッド生成を可能にする新しいフレームワークである。
提案手法は,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細な音声
- 参考スコア(独自算出の注目度): 47.03887859473704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven talking head generation is a core component of digital avatars, and 3D Gaussian Splatting has shown strong performance in real-time rendering of high-fidelity talking heads. However, achieving precise control over fine-grained facial movements remains a significant challenge, particularly due to lip-synchronization inaccuracies and facial jitter, both of which can contribute to the uncanny valley effect. To address these challenges, we propose Fine-Grained 3D Gaussian Splatting (FG-3DGS), a novel framework that enables temporally consistent and high-fidelity talking head generation. Our method introduces a frequency-aware disentanglement strategy to explicitly model facial regions based on their motion characteristics. Low-frequency regions, such as the cheeks, nose, and forehead, are jointly modeled using a standard MLP, while high-frequency regions, including the eyes and mouth, are captured separately using a dedicated network guided by facial area masks. The predicted motion dynamics, represented as Gaussian deltas, are applied to the static Gaussians to generate the final head frames, which are rendered via a rasterizer using frame-specific camera parameters. Additionally, a high-frequency-refined post-rendering alignment mechanism, learned from large-scale audio-video pairs by a pretrained model, is incorporated to enhance per-frame generation and achieve more accurate lip synchronization. Extensive experiments on widely used datasets for talking head generation demonstrate that our method outperforms recent state-of-the-art approaches in producing high-fidelity, lip-synced talking head videos.
- Abstract(参考訳): 音声駆動型音声ヘッド生成はデジタルアバターのコアコンポーネントであり,高忠実度音声ヘッドのリアルタイムレンダリングでは3次元ガウススプラッティングが強い性能を示した。
しかし、微粒な顔の動きを正確に制御することは、特にリップ同期不正確さと顔のジッタによって大きな課題であり、どちらも不気味な谷効果に寄与する可能性がある。
これらの課題に対処するために、時間的に一貫した高忠実な対話ヘッド生成を可能にする新しいフレームワークであるファイングレード3Dガウススプラッティング(FG-3DGS)を提案する。
本手法では, 動作特性に基づいて, 顔領域を明示的にモデル化するための周波数認識型アンタングル化手法を提案する。
頬、鼻、額などの低周波領域は標準のMLPを用いて共同でモデル化され、目と口を含む高周波領域は、顔領域マスクでガイドされた専用ネットワークを用いて別々にキャプチャされる。
ガウスデルタとして表される予測運動力学を静的ガウスに応用し、フレーム固有のカメラパラメータを用いてラスタライザを介してレンダリングされる最終頭部フレームを生成する。
さらに、事前訓練されたモデルにより大規模オーディオビデオペアから学習した高周波精製後アライメント機構を組み込んで、フレーム単位の生成を向上し、より正確な唇同期を実現する。
音声ヘッド生成に広く用いられているデータセットに対する広範な実験により、我々の手法は、高忠実でリップシンクな音声ヘッドビデオの生成において、最近の最先端のアプローチよりも優れていることが示された。
関連論文リスト
- PGSTalker: Real-Time Audio-Driven Talking Head Generation via 3D Gaussian Splatting with Pixel-Aware Density Control [37.390794417927644]
PGSTalkerは3次元ガウススプラッティングに基づくリアルタイム音声駆動音声ヘッド合成フレームワークである(3DGS)。
レンダリング性能を向上させるため,画素認識密度制御手法を提案し,点密度を適応的に割り当て,動的顔領域のディテールを向上し,冗長性を低減した。
論文 参考訳(メタデータ) (2025-09-21T05:01:54Z) - Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。
提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:50:27Z) - GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting [27.699313086744237]
GaussianTalkerは3D Gaussian Splattingに基づく音声駆動音声ヘッド合成手法である。
話者固有のモーショントランスレータは、普遍化音声特徴抽出により、対象話者固有の正確な唇の動きを達成する。
Dynamic Gaussian Rendererは話者固有のBlendShapesを導入し、潜在ポーズを通じて顔の詳細表現を強化する。
論文 参考訳(メタデータ) (2024-04-22T09:51:43Z) - Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior [29.120669908374424]
本研究では,Talk3Dと呼ばれる新しい音声駆動音声ヘッド合成フレームワークを提案する。
予め訓練された3D認識生成前を効果的に活用することにより、そのもっともらしい顔のジオメトリを忠実に再構築することができる。
提案手法は,既存の手法と比較して,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。
論文 参考訳(メタデータ) (2024-03-29T12:49:40Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。