論文の概要: GaussianHeadTalk: Wobble-Free 3D Talking Heads with Audio Driven Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2512.10939v1
- Date: Thu, 11 Dec 2025 18:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.563831
- Title: GaussianHeadTalk: Wobble-Free 3D Talking Heads with Audio Driven Gaussian Splatting
- Title(参考訳): GaussianHeadTalk: オーディオ駆動型ガウス式3Dトーキングヘッド
- Authors: Madhav Agarwal, Mingtian Zhang, Laura Sevilla-Lara, Steven McDonagh,
- Abstract要約: 音声駆動型音声頭が最近出現し、対話型アバターが可能になった。
現在の手法は高い視覚的忠実性を実現するが、遅いか速いか時間的に不安定である。
音声から直接モデルパラメータの変換器による予測を導入し,時間的整合性を実現する。
- 参考スコア(独自算出の注目度): 19.002087984839175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-driven talking heads have recently emerged and enable interactive avatars. However, real-world applications are limited, as current methods achieve high visual fidelity but slow or fast yet temporally unstable. Diffusion methods provide realistic image generation, yet struggle with oneshot settings. Gaussian Splatting approaches are real-time, yet inaccuracies in facial tracking, or inconsistent Gaussian mappings, lead to unstable outputs and video artifacts that are detrimental to realistic use cases. We address this problem by mapping Gaussian Splatting using 3D Morphable Models to generate person-specific avatars. We introduce transformer-based prediction of model parameters, directly from audio, to drive temporal consistency. From monocular video and independent audio speech inputs, our method enables generation of real-time talking head videos where we report competitive quantitative and qualitative performance.
- Abstract(参考訳): 音声駆動型音声頭が最近出現し、対話型アバターが可能になった。
しかし、現在の手法は視覚的忠実度が高いが、遅いか速いか時間的に不安定であるため、現実世界の応用は限られている。
拡散法はリアルな画像生成を提供するが、ワンショット設定では苦労する。
ガウス的スプレイティングアプローチはリアルタイムであるが、顔追跡や一貫性のないガウス的マッピングでは不正確であり、不安定な出力やビデオアーティファクトが現実的なユースケースに有害である。
本研究では,3次元モルファブルモデルを用いてガウススプラッティングをマッピングし,個人固有のアバターを生成することでこの問題に対処する。
音声から直接モデルパラメータの変換器による予測を導入し,時間的整合性を実現する。
単眼ビデオと独立音声音声入力から、競合量および質的な性能を報告するリアルタイム音声ヘッドビデオを生成することができる。
関連論文リスト
- AGORA: Adversarial Generation Of Real-time Animatable 3D Gaussian Head Avatars [54.854597811704316]
AGORAは、3DGSを生成的敵ネットワーク内で拡張し、アニマタブルなアバターを生成する新しいフレームワークである。
表現の忠実度は、二重識別器の訓練スキームによって強制される。
AGORAは視覚的にリアルなだけでなく、正確に制御可能なアバターを生成する。
論文 参考訳(メタデータ) (2025-12-06T14:05:20Z) - GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting [25.78134656333095]
ポーズ制御可能な音声ヘッドをリアルタイムに生成するための新しいフレームワークを提案する。
GaussianTalkerは、ヘッドの標準的な3DGS表現を構築し、オーディオと同期して変形する。
空間認識機能を活用し、近隣の点間の相互作用を強制する。
論文 参考訳(メタデータ) (2024-04-24T17:45:24Z) - GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting [27.699313086744237]
GaussianTalkerは3D Gaussian Splattingに基づく音声駆動音声ヘッド合成手法である。
話者固有のモーショントランスレータは、普遍化音声特徴抽出により、対象話者固有の正確な唇の動きを達成する。
Dynamic Gaussian Rendererは話者固有のBlendShapesを導入し、潜在ポーズを通じて顔の詳細表現を強化する。
論文 参考訳(メタデータ) (2024-04-22T09:51:43Z) - ASH: Animatable Gaussian Splats for Efficient and Photoreal Human Rendering [62.81677824868519]
本稿では,動的人間をリアルタイムに写実的にレンダリングするためのアニマタブルなガウススプラッティング手法を提案する。
我々は、被服をアニマタブルな3Dガウスとしてパラメータ化し、画像空間に効率よく切り込み、最終的なレンダリングを生成する。
我々は、ポーズ制御可能なアバターの競合手法を用いてASHをベンチマークし、我々の手法が既存のリアルタイムメソッドよりも大きなマージンで優れており、オフラインメソッドよりも同等またはそれ以上の結果を示すことを示した。
論文 参考訳(メタデータ) (2023-12-10T17:07:37Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。