論文の概要: D^3-Talker: Dual-Branch Decoupled Deformation Fields for Few-Shot 3D Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2508.14449v1
- Date: Wed, 20 Aug 2025 06:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.356761
- Title: D^3-Talker: Dual-Branch Decoupled Deformation Fields for Few-Shot 3D Talking Head Synthesis
- Title(参考訳): D^3-Talker:Few-Shot 3Dトーキングヘッド合成のためのデュアルブランチデカップリング変形場
- Authors: Yuhang Guo, Kaijun Deng, Siyang Song, Jindong Xie, Wenhui Ma, Linlin Shen,
- Abstract要約: 3Dトーキングヘッド合成における重要な課題は、スクラッチから新しいモデルをトレーニングするために、長期にわたるトーキングヘッドビデオに依存することである。
近年,事前学習モデルを用いて音声から一般特徴を抽出し,この問題に対処する手法が提案されている。
本稿ではD3-Talkerを提案する。これは静的な3次元ガウス属性場を構築し,音声信号と顔信号を用いた新しいアプローチである。
- 参考スコア(独自算出の注目度): 28.923949756720425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in 3D talking head synthesis lies in the reliance on a long-duration talking head video to train a new model for each target identity from scratch. Recent methods have attempted to address this issue by extracting general features from audio through pre-training models. However, since audio contains information irrelevant to lip motion, existing approaches typically struggle to map the given audio to realistic lip behaviors in the target face when trained on only a few frames, causing poor lip synchronization and talking head image quality. This paper proposes D^3-Talker, a novel approach that constructs a static 3D Gaussian attribute field and employs audio and Facial Motion signals to independently control two distinct Gaussian attribute deformation fields, effectively decoupling the predictions of general and personalized deformations. We design a novel similarity contrastive loss function during pre-training to achieve more thorough decoupling. Furthermore, we integrate a Coarse-to-Fine module to refine the rendered images, alleviating blurriness caused by head movements and enhancing overall image quality. Extensive experiments demonstrate that D^3-Talker outperforms state-of-the-art methods in both high-fidelity rendering and accurate audio-lip synchronization with limited training data. Our code will be provided upon acceptance.
- Abstract(参考訳): 3Dトーキングヘッド合成における重要な課題は、ターゲットの個人認証をスクラッチからトレーニングするために、長期にわたるトーキングヘッドビデオに依存することである。
近年,事前学習モデルを用いて音声から一般特徴を抽出し,この問題に対処する手法が提案されている。
しかし、音声には唇の動きに関係のない情報が含まれているため、既存のアプローチでは、わずか数フレームで訓練した場合に、対象の顔のリアルな唇行動にその音声をマッピングすることは困難であり、唇の同期が悪く、頭部の画質が良くない。
本稿では,静的な3次元ガウス属性場を構築する新しい手法であるD^3-Talkerを提案し,音声信号と顔信号を用いて2つの異なるガウス属性変形場を独立に制御し,一般的な変形とパーソナライズされた変形の予測を効果的に分離する。
我々は、より徹底的な疎結合を実現するために、事前学習中に新しい類似性比較損失関数を設計する。
さらに,画像のレンダリングを改良し,頭部の動きによるぼやけを緩和し,全体像の画質を向上させるために,粗視モジュールを統合した。
大規模な実験により,D^3-Talkerは,訓練データに制限のある高忠実なレンダリングと正確なオーディオリップ同期の両方において,最先端の手法よりも優れていた。
私たちのコードは受理時に提供されます。
関連論文リスト
- GGTalker: Talking Head Systhesis with Generalizable Gaussian Priors and Identity-Specific Adaptation [20.17978153568009]
GGTalkerは、一般化可能な先行とアイデンティティ固有の適応を組み合わせることで、対話ヘッドを合成する。
GGTalkerは、レンダリング品質、3D一貫性、リップシンク精度、トレーニング効率において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-26T17:37:18Z) - S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis [14.437741528053504]
単一ショット音声駆動ラジアンス場(S3D-NeRF)法を設計し,各アイデンティティーに対する代表的外観特徴の学習,音声による異なる顔領域の動作のモデル化,唇領域の時間的一貫性の維持という3つの課題に対処する。
我々のS3D-NeRFは、ビデオの忠実さとオーディオ-リップ同期の両方において、過去の技術を上回っています。
論文 参考訳(メタデータ) (2024-08-18T03:59:57Z) - NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。