論文の概要: VASA-3D: Lifelike Audio-Driven Gaussian Head Avatars from a Single Image
- arxiv url: http://arxiv.org/abs/2512.14677v1
- Date: Tue, 16 Dec 2025 18:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.837122
- Title: VASA-3D: Lifelike Audio-Driven Gaussian Head Avatars from a Single Image
- Title(参考訳): VASA-3D:1枚の画像からのオーディオ駆動型ガウシアンヘッドアバター
- Authors: Sicheng Xu, Guojun Chen, Jiaolong Yang, Yizhong Zhang, Yu Deng, Steve Lin, Baining Guo,
- Abstract要約: VASA-3Dはオーディオ駆動の単発3Dヘッドアバタージェネレータである。
この研究は、実際の人間の顔に存在する微妙な表情の詳細を捉え、単一の肖像画から複雑な3D頭部アバターを再構築する、という2つの大きな課題に取り組む。
- 参考スコア(独自算出の注目度): 27.76629170122787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose VASA-3D, an audio-driven, single-shot 3D head avatar generator. This research tackles two major challenges: capturing the subtle expression details present in real human faces, and reconstructing an intricate 3D head avatar from a single portrait image. To accurately model expression details, VASA-3D leverages the motion latent of VASA-1, a method that yields exceptional realism and vividness in 2D talking heads. A critical element of our work is translating this motion latent to 3D, which is accomplished by devising a 3D head model that is conditioned on the motion latent. Customization of this model to a single image is achieved through an optimization framework that employs numerous video frames of the reference head synthesized from the input image. The optimization takes various training losses robust to artifacts and limited pose coverage in the generated training data. Our experiment shows that VASA-3D produces realistic 3D talking heads that cannot be achieved by prior art, and it supports the online generation of 512x512 free-viewpoint videos at up to 75 FPS, facilitating more immersive engagements with lifelike 3D avatars.
- Abstract(参考訳): オーディオ駆動型単発3DヘッドアバタージェネレータVASA-3Dを提案する。
この研究は、実際の人間の顔に存在する微妙な表情の詳細を捉え、単一の肖像画から複雑な3D頭部アバターを再構築する、という2つの大きな課題に取り組む。
表現の詳細を正確にモデル化するために、VASA-3Dは2D音声ヘッドにおいて例外的なリアリズムと鮮明さをもたらす方法であるVASA-1の運動潜伏を利用した。
我々の研究の重要な要素は、この動きを3Dに変換することである。
このモデルの単一画像へのカスタマイズは、入力画像から合成された参照ヘッドの多数のビデオフレームを利用する最適化フレームワークによって達成される。
最適化は、アーティファクトに対して堅牢なさまざまなトレーニング損失と、生成されたトレーニングデータのポーズカバレッジを制限します。
我々の実験によると、VASA-3Dは、先行技術では達成できないリアルな3Dトーキングヘッドを生成し、最大75FPSで512x512自由視点ビデオのオンライン生成をサポートし、ライフスタイルの3Dアバターとのより没入的なエンゲージメントを促進する。
関連論文リスト
- Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars [60.0866477932976]
少数の入力画像から高品質でアニマタブルな3Dヘッドアバターを復元するAvat3rを提案する。
大規模なリコンストラクションモデルをアニマタブルにし、大規模なマルチビュービデオデータセットから3次元以上の人間の頭部を強力に学習する。
トレーニング中に異なる表現の入力イメージをモデルに供給することでロバスト性を高め,不整合入力からの3次元頭部アバターの再構成を可能にする。
論文 参考訳(メタデータ) (2025-02-27T16:00:11Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - Articulated 3D Head Avatar Generation using Text-to-Image Diffusion
Models [107.84324544272481]
多様な頭部アバターを合成する能力は、拡張現実、撮影、教育など、多くの応用に不可欠である。
テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。
拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T19:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。