論文の概要: FlexAvatar: Flexible Large Reconstruction Model for Animatable Gaussian Head Avatars with Detailed Deformation
- arxiv url: http://arxiv.org/abs/2512.17717v1
- Date: Fri, 19 Dec 2025 15:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.469279
- Title: FlexAvatar: Flexible Large Reconstruction Model for Animatable Gaussian Head Avatars with Detailed Deformation
- Title(参考訳): FlexAvatar:細部変形を有するアニマタブルガウスヘッドアバターのフレキシブル大再構成モデル
- Authors: Cheng Peng, Zhuo Su, Liao Wang, Chen Guo, Zhaohu Li, Chengjiang Long, Zheng Lv, Jingxiang Sun, Chenyangguang Zhang, Yebin Liu,
- Abstract要約: 高忠実度3次元頭部アバターのフレキシブル大再構成モデルFlexAvatarを提案する。
フレキシブルなインプットナンバー非依存、カメラ不要、表現自由なインプットをロバストな3D表現に集約する。
従来の手法よりも優れた3次元一貫性、詳細な動的リアリズムを実現する。
- 参考スコア(独自算出の注目度): 52.919328336985636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FlexAvatar, a flexible large reconstruction model for high-fidelity 3D head avatars with detailed dynamic deformation from single or sparse images, without requiring camera poses or expression labels. It leverages a transformer-based reconstruction model with structured head query tokens as canonical anchor to aggregate flexible input-number-agnostic, camera-pose-free and expression-free inputs into a robust canonical 3D representation. For detailed dynamic deformation, we introduce a lightweight UNet decoder conditioned on UV-space position maps, which can produce detailed expression-dependent deformations in real time. To better capture rare but critical expressions like wrinkles and bared teeth, we also adopt a data distribution adjustment strategy during training to balance the distribution of these expressions in the training set. Moreover, a lightweight 10-second refinement can further enhances identity-specific details in extreme identities without affecting deformation quality. Extensive experiments demonstrate that our FlexAvatar achieves superior 3D consistency, detailed dynamic realism compared with previous methods, providing a practical solution for animatable 3D avatar creation.
- Abstract(参考訳): 本稿では,高忠実度3次元頭部アバターのフレキシブルな大再構成モデルFlexAvatarについて述べる。
トランスフォーマーベースの再構成モデルと構造化ヘッドクエリトークンを標準アンカーとして利用し、フレキシブルな入力数に依存しない、カメラ不要で、表現自由な入力をロバストな標準3D表現に集約する。
詳細な動的変形に対して,UV空間の位置マップに条件付き軽量なUNetデコーダを導入し,詳細な表現に依存した変形をリアルタイムで生成する。
また,シワや有刺歯などの稀だが重要な表現をよりよく捉えるために,トレーニング中にこれらの表現の分布のバランスをとるために,データ分布調整戦略を採用した。
さらに、軽量な10秒改良により、変形品質に影響を与えることなく、極端アイデンティティのアイデンティティ固有の詳細をさらに強化することができる。
大規模な実験により、FlexAvatarは従来の手法に比べて優れた3D一貫性、詳細な動的リアリズムを実現し、アニマタブルな3Dアバター作成のための実用的なソリューションを提供することが示された。
関連論文リスト
- FlexAvatar: Learning Complete 3D Head Avatars with Partial Supervision [54.69512425050288]
1枚の画像から高品質で完全な3Dヘッドアバターを作成するFlexAvatarを紹介する。
トレーニング手順はスムーズな遅延アバター空間を生じ,任意の数の入力観測に適合する恒等性とフレキシブルな適合性を実現する。
論文 参考訳(メタデータ) (2025-12-17T17:09:52Z) - TeGA: Texture Space Gaussian Avatars for High-Resolution Dynamic Head Modeling [52.87836237427514]
フォトリアルアバターは、テレプレゼンス、拡張現実、エンターテイメントにおける新興アプリケーションにおいて重要な要素であると見なされている。
本稿では,最先端の3Dヘッドアバターモデルを提案する。
論文 参考訳(メタデータ) (2025-05-08T22:10:27Z) - FRESA: Feedforward Reconstruction of Personalized Skinned Avatars from Few Images [74.86864398919467]
数枚の画像からリアルなアニメーションで、パーソナライズされた3Dアバターを再構成する新しい手法を提案する。
我々は、1000人以上の服を着た人間から普遍的な事前学習を行い、即時フィードフォワード生成とゼロショット一般化を実現する。
提案手法は, 最新技術よりも忠実な再構築とアニメーションを生成し, カジュアルに撮影された携帯電話写真からの入力に直接一般化することができる。
論文 参考訳(メタデータ) (2025-03-24T23:20:47Z) - HeadEvolver: Text to Head Avatars via Expressive and Attribute-Preserving Mesh Deformation [17.590555698266346]
本稿では,テキストガイダンスからスタイリングされた頭部アバターを生成するための新しいフレームワークを提案する。
本手法は,面毎のヤコビアンによるメッシュ変形を表現し,学習可能なベクトル場を用いて局所変形を適応的に変調する。
我々のフレームワークは,テンプレートメッシュから保存した属性をシームレスに編集しながら,テキストでさらに編集できる現実的な形状やテクスチャを生成することができる。
論文 参考訳(メタデータ) (2024-03-14T12:15:23Z) - InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars [40.10906393484584]
本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークを提案する。
本アーキテクチャでは,画素対応画像-画像変換を重要視し,観測空間と標準空間の対応を学習する必要性を緩和する。
提案手法は,1ショットと数ショットのアバターアニメーションタスクにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2023-12-03T18:59:15Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。