Fugu-MT 論文翻訳(概要): VASA-3D: Lifelike Audio-Driven Gaussian Head Avatars from a Single Image

論文の概要: VASA-3D: Lifelike Audio-Driven Gaussian Head Avatars from a Single Image

arxiv url: http://arxiv.org/abs/2512.14677v1
Date: Tue, 16 Dec 2025 18:44:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-17 16:49:26.837122
Title: VASA-3D: Lifelike Audio-Driven Gaussian Head Avatars from a Single Image
Title（参考訳）: VASA-3D:1枚の画像からのオーディオ駆動型ガウシアンヘッドアバター
Authors: Sicheng Xu, Guojun Chen, Jiaolong Yang, Yizhong Zhang, Yu Deng, Steve Lin, Baining Guo,
Abstract要約: VASA-3Dはオーディオ駆動の単発3Dヘッドアバタージェネレータである。この研究は、実際の人間の顔に存在する微妙な表情の詳細を捉え、単一の肖像画から複雑な3D頭部アバターを再構築する、という2つの大きな課題に取り組む。
参考スコア（独自算出の注目度）: 27.76629170122787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose VASA-3D, an audio-driven, single-shot 3D head avatar generator. This research tackles two major challenges: capturing the subtle expression details present in real human faces, and reconstructing an intricate 3D head avatar from a single portrait image. To accurately model expression details, VASA-3D leverages the motion latent of VASA-1, a method that yields exceptional realism and vividness in 2D talking heads. A critical element of our work is translating this motion latent to 3D, which is accomplished by devising a 3D head model that is conditioned on the motion latent. Customization of this model to a single image is achieved through an optimization framework that employs numerous video frames of the reference head synthesized from the input image. The optimization takes various training losses robust to artifacts and limited pose coverage in the generated training data. Our experiment shows that VASA-3D produces realistic 3D talking heads that cannot be achieved by prior art, and it supports the online generation of 512x512 free-viewpoint videos at up to 75 FPS, facilitating more immersive engagements with lifelike 3D avatars.
Abstract（参考訳）: オーディオ駆動型単発3DヘッドアバタージェネレータVASA-3Dを提案する。この研究は、実際の人間の顔に存在する微妙な表情の詳細を捉え、単一の肖像画から複雑な3D頭部アバターを再構築する、という2つの大きな課題に取り組む。表現の詳細を正確にモデル化するために、VASA-3Dは2D音声ヘッドにおいて例外的なリアリズムと鮮明さをもたらす方法であるVASA-1の運動潜伏を利用した。我々の研究の重要な要素は、この動きを3Dに変換することである。このモデルの単一画像へのカスタマイズは、入力画像から合成された参照ヘッドの多数のビデオフレームを利用する最適化フレームワークによって達成される。最適化は、アーティファクトに対して堅牢なさまざまなトレーニング損失と、生成されたトレーニングデータのポーズカバレッジを制限します。我々の実験によると、VASA-3Dは、先行技術では達成できないリアルな3Dトーキングヘッドを生成し、最大75FPSで512x512自由視点ビデオのオンライン生成をサポートし、ライフスタイルの3Dアバターとのより没入的なエンゲージメントを促進する。

関連論文リスト

From Blurry to Believable: Enhancing Low-quality Talking Heads with 3D Generative Priors [49.37666175170832]
低解像度でアニマタブルな3Dヘッドアバターを実現するためのフレームワークであるSuperHeadを紹介する。 SuperHeadは高品質な幾何学とテクスチャを合成し、3Dと時間的整合性を確保している。実験により、SuperHeadはダイナミックモーションの下で、きめ細かい顔の詳細を持つアバターを生成することが示された。
論文参考訳（メタデータ） (2026-02-05T19:00:50Z)
Generalizable and Animatable 3D Full-Head Gaussian Avatar from a Single Image [9.505520774467263]
単一の画像から3Dアニマタブルな頭部アバターを構築することは重要な問題ですが、難しい問題です。既存の方法は通常、大きなカメラポーズのバリエーションの下で崩壊し、3Dアバターのリアリズムを損なう。本研究では,1回のフィードフォワードパスで1発の3Dフルヘッドアニマタブルアバター再構成を実現するための新しい枠組みを提案する。
論文参考訳（メタデータ） (2026-01-19T06:56:58Z)
Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars [60.0866477932976]
少数の入力画像から高品質でアニマタブルな3Dヘッドアバターを復元するAvat3rを提案する。大規模なリコンストラクションモデルをアニマタブルにし、大規模なマルチビュービデオデータセットから3次元以上の人間の頭部を強力に学習する。トレーニング中に異なる表現の入力イメージをモデルに供給することでロバスト性を高め,不整合入力からの3次元頭部アバターの再構成を可能にする。
論文参考訳（メタデータ） (2025-02-27T16:00:11Z)
Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文参考訳（メタデータ） (2024-01-16T17:04:30Z)
Articulated 3D Head Avatar Generation using Text-to-Image Diffusion Models [107.84324544272481]
多様な頭部アバターを合成する能力は、拡張現実、撮影、教育など、多くの応用に不可欠である。テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2023-07-10T19:15:32Z)
Dynamic Neural Portraits [58.480811535222834]
フルヘッド再現問題に対する新しいアプローチであるDynamic Neural Portraitsを提案する。本手法は,頭部ポーズ,表情,視線を明示的に制御し,写実的な映像像を生成する。実験の結果,提案手法は最近のNeRF法よりも270倍高速であることがわかった。
論文参考訳（メタデータ） (2022-11-25T10:06:14Z)
DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。 2Dと3Dのニューラルレンダリング技術の利点を利用する。挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2022-03-29T17:59:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。