論文の概要: Instant Expressive Gaussian Head Avatar via 3D-Aware Expression Distillation
- arxiv url: http://arxiv.org/abs/2512.16893v1
- Date: Thu, 18 Dec 2025 18:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.233386
- Title: Instant Expressive Gaussian Head Avatar via 3D-Aware Expression Distillation
- Title(参考訳): 3D-Aware Expression Distillation による瞬時表現型ガウス頭部アバター
- Authors: Kaiwen Jiang, Xueting Li, Seonwook Park, Ravi Ramamoorthi, Shalini De Mello, Koki Nagano,
- Abstract要約: 2次元拡散法は、しばしば3次元の一貫性と速度を損なう。
3D対応の顔アニメーションフィードフォワード法は、3D一貫性を確保し、より高速な推論速度を実現する。
我々の手法は107.31 FPSでアニメーションとポーズの制御を行い、最先端のアニメーションに匹敵する品質を実現している。
- 参考スコア(独自算出の注目度): 46.27695095774081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Portrait animation has witnessed tremendous quality improvements thanks to recent advances in video diffusion models. However, these 2D methods often compromise 3D consistency and speed, limiting their applicability in real-world scenarios, such as digital twins or telepresence. In contrast, 3D-aware facial animation feedforward methods -- built upon explicit 3D representations, such as neural radiance fields or Gaussian splatting -- ensure 3D consistency and achieve faster inference speed, but come with inferior expression details. In this paper, we aim to combine their strengths by distilling knowledge from a 2D diffusion-based method into a feed-forward encoder, which instantly converts an in-the-wild single image into a 3D-consistent, fast yet expressive animatable representation. Our animation representation is decoupled from the face's 3D representation and learns motion implicitly from data, eliminating the dependency on pre-defined parametric models that often constrain animation capabilities. Unlike previous computationally intensive global fusion mechanisms (e.g., multiple attention layers) for fusing 3D structural and animation information, our design employs an efficient lightweight local fusion strategy to achieve high animation expressivity. As a result, our method runs at 107.31 FPS for animation and pose control while achieving comparable animation quality to the state-of-the-art, surpassing alternative designs that trade speed for quality or vice versa. Project website is https://research.nvidia.com/labs/amri/projects/instant4d
- Abstract(参考訳): ポートレートアニメーションは、ビデオ拡散モデルの最近の進歩により、大幅な品質改善が見られた。
しかし、これらの2D手法は、しばしば3D一貫性とスピードを妥協し、デジタルツインやテレプレゼンスのような現実世界のシナリオで適用性を制限する。
対照的に、3D対応の顔アニメーションフィードフォワードメソッドは、ニューラルラディアンスフィールドやガウススプラッティングのような明示的な3D表現に基づいて構築されており、3D一貫性を確保し、推論速度を速くするが、表現の詳細は劣っている。
本稿では,2次元拡散法からの知識をフィードフォワードエンコーダに蒸留することで,その強度を組み合わさることを目的としている。
我々のアニメーション表現は顔の3D表現から切り離され、暗黙的にデータから動きを学習し、しばしばアニメーション能力を制約する事前定義されたパラメトリックモデルへの依存を排除します。
従来の3次元構造情報やアニメーション情報を融合するための計算集約的なグローバルフュージョン機構(マルチアテンション層など)とは異なり,本設計では,高速な局所融合戦略を用いて高いアニメーション表現性を実現する。
その結果、本手法は107.31 FPSでアニメーションとポーズの制御が可能であり、最先端のアニメーション品質に匹敵する性能を実現し、品質やその逆の速度を交換する代替設計を超越した。
プロジェクトウェブサイトはhttps://research.nvidia.com/labs/amri/projects/instant4d
関連論文リスト
- Gaussians-to-Life: Text-Driven Animation of 3D Gaussian Splatting Scenes [49.26872036160368]
ガウススティング表現における高品質な3Dシーンの一部をアニメーションする手法を提案する。
従来の作業とは対照的に、複雑な既存の3Dシーンのリアルなアニメーションを可能にする。
論文 参考訳(メタデータ) (2024-11-28T16:01:58Z) - DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D
Diffusion [69.67970568012599]
テキストからアニマタブルな3Dアバター生成のための新しい学習フレームワークDreamWaltz-Gを提案する。
このフレームワークのコアはScore DistillationとHybrid 3D Gaussian Avatar表現にある。
我々のフレームワークは、人間のビデオ再現や多目的シーン構成など、多様なアプリケーションもサポートしています。
論文 参考訳(メタデータ) (2024-09-25T17:59:45Z) - MotionDreamer: Exploring Semantic Video Diffusion features for Zero-Shot 3D Mesh Animation [10.263762787854862]
本稿では,ビデオ拡散モデルから抽出した動きに基づいて,様々な3次元形状の自動アニメーションを行う手法を提案する。
既存のコンピュータグラフィックスパイプラインと互換性のあるメッシュベースの明示的な表現を活用します。
我々の時間効率ゼロショット法は,多種多様な3次元形状を再アニメーションする優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-30T15:30:38Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - AniFaceGAN: Animatable 3D-Aware Face Image Generation for Video Avatars [71.00322191446203]
2D生成モデルは、異なるカメラ視点で画像をレンダリングする際に、しばしば望ましくないアーティファクトに悩まされる。
近年,3次元シーン表現を活用することで,3次元カメラポーズのゆがみを明示するために2次元GANを拡張している。
マルチビュー一貫した顔アニメーション生成のためのアニマタブルな3D対応GANを提案する。
論文 参考訳(メタデータ) (2022-10-12T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。