論文の概要: 3DRealHead: Few-Shot Detailed Head Avatar
- arxiv url: http://arxiv.org/abs/2604.13171v1
- Date: Tue, 14 Apr 2026 18:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.236716
- Title: 3DRealHead: Few-Shot Detailed Head Avatar
- Title(参考訳): 3DRealHead:頭部のアバターは微妙
- Authors: Jalees Nehvi, Timo Bolkart, Thabo Beeler, Justus Thies,
- Abstract要約: 本稿では,新しい表現制御信号を用いた頭部アバター再構成法である3DRealHeadを紹介する。
被験者は自分の写真を数枚撮って、3Dヘッドアバターを回収し、消費者レベルのウェブカメラで運転することができる。
アバターをアニメーションするために、U-Netは、駆動ビデオから抽出された口領域の特徴と同様に、3DMMベースの表情信号に条件付けされる。
- 参考スコア(独自算出の注目度): 37.50886855423571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The human face is central to communication. For immersive applications, the digital presence of a person should mirror the physical reality, capturing the users idiosyncrasies and detailed facial expressions. However, current 3D head avatar methods often struggle to faithfully reproduce the identity and facial expressions, despite having multi-view data or learned priors. Learning priors that capture the diversity of human appearances, especially, for regions with highly person-specific features, like the mouth and teeth region is challenging as the underlying training data is limited. In addition, many of the avatar methods are purely relying on 3D morphable model-based expression control which strongly limits expressivity. To address these challenges, we are introducing 3DRealHead, a few-shot head avatar reconstruction method with a novel expression control signal that is extracted from a monocular video stream of the subject. Specifically, the subject can take a few pictures of themselves, recover a 3D head avatar and drive it with a consumer-level webcam. The avatar reconstruction is enabled via a novel few-shot inversion process of a 3D human head prior which is represented as a Style U-Net that emits 3D Gaussian primitives which can be rendered under novel views. The prior is learned on the NeRSemble dataset. For animating the avatar, the U-Net is conditioned on 3DMM-based facial expression signals, as well as features of the mouth region extracted from the driving video. These additional mouth features allow us to recover facial expressions that cannot be represented by the 3DMM leading to a higher expressivity and closer resemblance to the physical reality.
- Abstract(参考訳): 人間の顔はコミュニケーションの中心です。
没入型アプリケーションでは、人物のデジタル存在は物理的な現実を反映し、ユーザの慣用性や詳細な表情を捉えなければならない。
しかし、現在の3Dヘッドアバター法は、多視点データや学習前の学習にもかかわらず、アイデンティティと表情を忠実に再現するのに苦労することが多い。
人間の外見の多様性を捉えた先行学習は、特に口や歯の領域のような非常に個人特有の特徴を持つ地域では、基礎となるトレーニングデータが限られているため、困難である。
加えて、アバター法の多くは、表現性を強く制限する3次元形態素モデルに基づく表現制御に純粋に依存している。
これらの課題に対処するため,被験者の単眼映像ストリームから抽出した新しい表現制御信号を用いた頭部アバター再構成法である3DRealHeadを導入する。
具体的には、被験者は自分の写真を数枚撮って、3Dヘッドアバターを回収し、消費者レベルのウェブカメラで運転することができる。
アバター再構成は、新しいビューでレンダリング可能な3Dガウスプリミティブを出力するスタイルU-Netとして表現される3D人間の頭部の新規な数ショット逆転処理によって実現される。
前者はNeRSembleデータセットで学習される。
アバターをアニメーションするために、U-Netは、駆動ビデオから抽出された口領域の特徴と同様に、3DMMベースの表情信号に条件付けされる。
これらの追加の口の機能は、3DMMでは表現できない表情を復元することができ、より表現力が高く、身体的現実によく似ている。
関連論文リスト
- Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars [60.0866477932976]
少数の入力画像から高品質でアニマタブルな3Dヘッドアバターを復元するAvat3rを提案する。
大規模なリコンストラクションモデルをアニマタブルにし、大規模なマルチビュービデオデータセットから3次元以上の人間の頭部を強力に学習する。
トレーニング中に異なる表現の入力イメージをモデルに供給することでロバスト性を高め,不整合入力からの3次元頭部アバターの再構成を可能にする。
論文 参考訳(メタデータ) (2025-02-27T16:00:11Z) - GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - DEGAS: Detailed Expressions on Full-Body Gaussian Avatars [13.683836322899953]
顔表情の豊かなフルボディアバターに対する3次元ガウススティング(3DGS)に基づくモデリング手法であるDEGASを提案する。
本稿では,2次元の顔と3次元のアバターのギャップを埋めて,2次元の肖像画にのみ訓練された潜在空間を採用することを提案する。
論文 参考訳(メタデータ) (2024-08-20T06:52:03Z) - Expressive Whole-Body 3D Gaussian Avatar [34.3179424934446]
モノクローナルビデオから学習した,表現力のある全身3DアバターであるExAvatarについて紹介する。
主な課題は,1)表情の多様性に限界があり,映像中のポーズ,2)3DスキャンやRGBD画像などの3D観察の欠如である。
論文 参考訳(メタデータ) (2024-07-31T15:29:13Z) - GAN-Avatar: Controllable Personalized GAN-based Human Head Avatar [48.21353924040671]
そこで本稿では,顔表情の正確な追跡を行うことなく,画像から人固有のアニマタブルなアバターを学習することを提案する。
3DMMの表情パラメータから生成モデルの潜在空間へのマッピングを学習する。
この方式により、3次元の外観再構成とアニメーション制御を分離し、画像合成における高忠実度を実現する。
論文 参考訳(メタデータ) (2023-11-22T19:13:00Z) - Articulated 3D Head Avatar Generation using Text-to-Image Diffusion
Models [107.84324544272481]
多様な頭部アバターを合成する能力は、拡張現実、撮影、教育など、多くの応用に不可欠である。
テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。
拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T19:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。