論文の概要: FFAvatar: Few-Shot, Feed-Forward, and Generalizable Avatar Reconstruction
- arxiv url: http://arxiv.org/abs/2605.15320v1
- Date: Thu, 14 May 2026 18:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.12668
- Title: FFAvatar: Few-Shot, Feed-Forward, and Generalizable Avatar Reconstruction
- Title(参考訳): FFAvatar : Few-Shot, Feed-Forward, Generalizable Avatar Reconstruction
- Authors: Thuan Hoang Nguyen, Jiahao Luo, Yinyu Nie, Hao Li, Gordon Guocheng Qian, Jian Wang,
- Abstract要約: アバター再構成は伝統的に、数時間の計算を必要とするオブジェクトごとの最適化に依存してきた。
本稿では,高品質でアニマタブルな3次元ガウスヘッドアバターを数秒で再構築する,一般化可能なフィードフォワードフレームワークであるFFAvatarを紹介する。
- 参考スコア(独自算出の注目度): 15.685572282342891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Avatar reconstruction has traditionally relied on per-subject optimization that requires hours of computation or on expensive preprocessing that limits scalability. We introduce FFAvatar, a generalizable feed-forward framework that reconstructs high-quality, animatable 3D Gaussian head avatars from few-shot unposed portrait images in seconds. FFAvatar fuses information from multiple source images into a unified canonical Gaussian representation through Multi-View Query-Former, which is animated via FLAME parameters predicted end-to-end directly from pixels, eliminating the overhead of offline FLAME extraction. We further propose a three-stage training curriculum that achieves both broad generalization and high-fidelity reconstruction: (i) scalable pretraining on extensive monocular video data with over 1M identities to learn strong generalizable priors; (ii) multi-view fine-tuning on a small but high-quality dataset of 360-degree captures to enhance geometric fidelity and extreme-view awareness; and (iii) optional personalization that adapts to specific identities for maximum fidelity within 500 optimization steps. Extensive experiments demonstrate that FFAvatar sets a new standard for identity preservation, geometric consistency, and animation fidelity. On the NeRSemble benchmark, it outperforms the state-of-the-art LAM by a substantial 5.5 PSNR gain. Furthermore, FFAvatar enables real-time deployment, reconstructing avatars in 2 seconds without personalization and 10 seconds with personalization, while supporting 49 FPS animation on a single NVIDIA A100 GPU.
- Abstract(参考訳): アバターの再構築は伝統的に、時間を要するオブジェクトごとの最適化やスケーラビリティを制限する高価な前処理に依存してきた。
FFAvatarは、高品質でアニマタブルな3Dガウスの頭部アバターを、数枚の未撮像画像から数秒で再構築する、汎用的なフィードフォワードフレームワークである。
FFAvatarは複数のソースイメージからの情報をMulti-View Query-Formerを通じて統一されたガウス表現に融合する。
さらに,広汎化と高忠実化を両立させる3段階の研修カリキュラムを提案する。
(i)100万以上のアイデンティティを持つ広範な単眼ビデオデータによるスケーラブルな事前学習により、強力な一般化可能な事前学習を行う。
二 幾何学的忠実度及び極度視認性を高めるため、小型ながら高品質な360度撮影データセットのマルチビュー微調整
三 最適化の五百段階以内において、最大忠実度を示す特定のアイデンティティに適応する任意のパーソナライゼーション。
大規模な実験により、FFAvatarはアイデンティティの保存、幾何整合性、アニメーションの忠実性の新しい標準を定めている。
NeRSemble ベンチマークでは、最先端の LAM を5.5 PSNR で上回っている。
さらに、FFAvatarはリアルタイムデプロイメントを可能にし、パーソナライゼーションなしで2秒でアバターを再構築し、パーソナライゼーションで10秒間、単一のNVIDIA A100 GPU上で49 FPSアニメーションをサポートする。
関連論文リスト
- F3G-Avatar : Face Focused Full-body Gaussian Avatar [5.5263731799099425]
F3G-アバター(F3G-Avatar)は、顔を認識するフルボディアバター合成法である。
マルチビューRGBビデオと回帰ポーズ/形状パラメータから、アニマタブルな人間の表現を再構成する。
AvatarReXデータセットでは、PSNR/SSIM/LPIPSが26.243/0.964/0.084に達した。
論文 参考訳(メタデータ) (2026-04-10T19:08:46Z) - FHAvatar: Fast and High-Fidelity Reconstruction of Face-and-Hair Composable 3D Head Avatar from Few Casual Captures [13.76145751985277]
任意の視点から顔と髪の成分を合成可能な3次元ガウスアバターを再構成するための新しいフレームワークであるFHAvatarについて述べる。
実験により、FHAvatarは数分で新しいアイデンティティを数回だけ観察することで、最先端の再構築品質を達成することが示された。
論文 参考訳(メタデータ) (2026-03-24T15:43:54Z) - OMEGA-Avatar: One-shot Modeling of 360° Gaussian Avatars [54.688420347927725]
OMEGA-Avatarは、単一の画像から一般化可能で360度完全でアニマブルな3Dガウスヘッドを同時に生成する最初のフレームワークである。
OMEGA-Avatarは最先端の性能を達成し,360度フルヘッド完全性において既存のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-12T08:16:38Z) - FastGHA: Generalized Few-Shot 3D Gaussian Head Avatars with Real-Time Animation [26.161556787983496]
OURSは、少数の入力画像から高品質なガウスヘッドアバターを生成するフィードフォワード方式である。
提案手法は,入力画像から画素ごとのガウス表現を直接学習する。
実験の結果,提案手法は,レンダリング品質と推論効率の両方において,既存の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-20T10:49:49Z) - Parametric Gaussian Human Model: Generalizable Prior for Efficient and Realistic Human Avatar Modeling [32.480049588166544]
フォトとアニマタブルな人間のアバターは、バーチャル/拡張現実、テレプレゼンス、デジタルエンターテイメントの鍵となる。
本稿では,人間を3DGSに統合する汎用的で効率的なフレームワークであるParametric Gaussian Human Model(PGHM)を提案する。
実験の結果、PGHMは最適化からスクラッチまでの手法よりもはるかに効率が良く、1被写体あたり約20分で同等の視覚的品質のアバターを生産できることがわかった。
論文 参考訳(メタデータ) (2025-06-07T03:53:30Z) - FRESA: Feedforward Reconstruction of Personalized Skinned Avatars from Few Images [74.86864398919467]
数枚の画像からリアルなアニメーションで、パーソナライズされた3Dアバターを再構成する新しい手法を提案する。
我々は、1000人以上の服を着た人間から普遍的な事前学習を行い、即時フィードフォワード生成とゼロショット一般化を実現する。
提案手法は, 最新技術よりも忠実な再構築とアニメーションを生成し, カジュアルに撮影された携帯電話写真からの入力に直接一般化することができる。
論文 参考訳(メタデータ) (2025-03-24T23:20:47Z) - Generalizable and Animatable Gaussian Head Avatar [50.34788590904843]
本稿では,GAGAvatar(Generalizable and Animatable Gaussian Head Avatar)を提案する。
我々は、1つの前方通過で1つの画像から3次元ガウスのパラメータを生成する。
提案手法は, 従来の手法と比較して, 再現性や表現精度の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-10T14:29:00Z) - LightAvatar: Efficient Head Avatar as Dynamic Neural Light Field [58.93692943064746]
ニューラル光場(NeLF)に基づく最初の頭部アバターモデルであるLightAvatarを紹介する。
LightAvatarは3DMMパラメータから画像をレンダリングし、メッシュやボリュームレンダリングを使わずに、単一のネットワークフォワードパスを介してカメラがポーズする。
論文 参考訳(メタデータ) (2024-09-26T17:00:02Z) - Generalizable One-shot Neural Head Avatar [90.50492165284724]
本研究では,1枚の画像から3次元頭部アバターを再構成し,アニメイトする手法を提案する。
本研究では,一視点画像に基づく識別不能な人物を一般化するだけでなく,顔領域内外における特徴的詳細を捉えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T22:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。