論文の概要: Audio-Driven Universal Gaussian Head Avatars
- arxiv url: http://arxiv.org/abs/2509.18924v1
- Date: Tue, 23 Sep 2025 12:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.834611
- Title: Audio-Driven Universal Gaussian Head Avatars
- Title(参考訳): オーディオ駆動型ユニバーサルガウスヘッドアバター
- Authors: Kartik Teotia, Helge Rhodin, Mohit Mendiratta, Hyeongwoo Kim, Marc Habermann, Christian Theobalt,
- Abstract要約: 本稿では,音声駆動型ユニバーサルフォトリアリスティックアバター合成法について紹介する。
個人に依存しない音声モデルと私たちの小説Universal Head Avatar Priorを組み合わせたものです。
我々の手法は、外観の詳細なモデリングとレンダリングを考慮に入れた最初の一般的なオーディオ駆動アバターモデルである。
- 参考スコア(独自算出の注目度): 66.56656075831954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first method for audio-driven universal photorealistic avatar synthesis, combining a person-agnostic speech model with our novel Universal Head Avatar Prior (UHAP). UHAP is trained on cross-identity multi-view videos. In particular, our UHAP is supervised with neutral scan data, enabling it to capture the identity-specific details at high fidelity. In contrast to previous approaches, which predominantly map audio features to geometric deformations only while ignoring audio-dependent appearance variations, our universal speech model directly maps raw audio inputs into the UHAP latent expression space. This expression space inherently encodes, both, geometric and appearance variations. For efficient personalization to new subjects, we employ a monocular encoder, which enables lightweight regression of dynamic expression variations across video frames. By accounting for these expression-dependent changes, it enables the subsequent model fine-tuning stage to focus exclusively on capturing the subject's global appearance and geometry. Decoding these audio-driven expression codes via UHAP generates highly realistic avatars with precise lip synchronization and nuanced expressive details, such as eyebrow movement, gaze shifts, and realistic mouth interior appearance as well as motion. Extensive evaluations demonstrate that our method is not only the first generalizable audio-driven avatar model that can account for detailed appearance modeling and rendering, but it also outperforms competing (geometry-only) methods across metrics measuring lip-sync accuracy, quantitative image quality, and perceptual realism.
- Abstract(参考訳): 音声駆動型ユニバーサル・フォトリアリスティック・アバター合成の最初の手法について紹介し, 個人非依存の音声モデルと我々の小説Universal Head Avatar Prior (UHAP) を組み合わせた。
UHAPは、クロスアイデンティティなマルチビュービデオで訓練されている。
特に、我々のUHAPは中立スキャンデータで監視されており、高い忠実度でアイデンティティ固有の詳細をキャプチャすることができる。
音響特性を幾何変形にのみマッピングする従来の手法とは対照的に,我々の普遍音声モデルは生音声入力を直接UHAP潜在表現空間にマッピングする。
この表現空間は本質的に幾何学的および外見的なバリエーションを符号化する。
新しい被験者を効率よくパーソナライズするために,ビデオフレーム間の動的表現変動の軽量回帰を可能にするモノクラーエンコーダを用いる。
これらの表現に依存した変化を考慮することで、後続のモデル微調整段階は、対象のグローバルな外観と幾何学を捉えることにのみ焦点を合わせることができる。
UHAPによるこれらの音声駆動表現符号の復号化は、唇の正確な同期と、眼球運動、視線シフト、現実的な口内外外見などのニュアンスのある表現細部を持つ非常に現実的なアバターを生成する。
広範に評価した結果,本手法は外観の詳細なモデリングとレンダリングを考慮に入れた最初の一般化可能なアバターモデルであるだけでなく,リップシンク精度,定量的画像品質,知覚リアリズムを計測し,競合する(幾何学のみ)手法よりも優れていた。
関連論文リスト
- GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars [36.96390906514729]
MegaPortraitsモデルは、この領域で最先端の結果を示している。
EMOPortraitsモデルを紹介します。 強靭で非対称な顔表現を忠実にサポートするモデルの能力を強化する。
そこで本研究では,多彩な表情と非対称な表情を特徴とする新しい多視点ビデオデータセットを提案する。
論文 参考訳(メタデータ) (2024-04-29T21:23:29Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder [55.58582254514431]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-30T17:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。