論文の概要: HumanNOVA: Photorealistic, Universal and Rapid 3D Human Avatar Modeling from a Single Image
- arxiv url: http://arxiv.org/abs/2606.02573v1
- Date: Mon, 01 Jun 2026 17:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.565526
- Title: HumanNOVA: Photorealistic, Universal and Rapid 3D Human Avatar Modeling from a Single Image
- Title(参考訳): HumanNOVA: 単一画像からのフォトリアリスティック、ユニバーサル、ラピッド3Dヒューマンアバターモデリング
- Authors: Hezhen Hu, Wangbo Zhao, Lanqing Guo, Hanwen Jiang, Jonathan C. Liu, Zhiwen Fan, Kai Wang, Zhangyang Wang, Georgios Pavlakos,
- Abstract要約: 我々は,1枚のRGB画像から3次元アバターを生成するための,フォトリアリスティックで普遍的で高速なモデルであるHumanNOVAを提案する。
アーキテクチャの面では、HumanNOVAは1秒未満で高速な推論を可能にする、フィードフォワード、トークン条件付きアバターモデリングフレームワークを採用している。
- 参考スコア(独自算出の注目度): 84.81016200801153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present HumanNOVA, a photorealistic, universal, and rapid model for generating 3D human avatars from a single RGB image. Achieving both photorealism and generalization is challenging due to the scarcity of diverse, high-quality 3D human data. To address this, we build a scalable data generation pipeline that follows two strategies. The first one is to leverage existing rigged assets and animate them with extensive poses from daily life. The second strategy is to utilize existing multi-camera captures of humans and employ fitting to generate more diverse views for training. These two strategies enable us to scale up to 100k assets, significantly enhancing both the quantity and the diversity of data for robust model training. In terms of the architecture, HumanNOVA adopts a feed-forward, token-conditioned avatar modeling framework that allows fast inference in less than one second and requires no test-time optimization. Given an input image and an estimated simplified human mesh (SMPL) without detailed geometry or appearance, the model first encodes both inputs into compact token representations. These tokens then act as conditioning signals and are fused through cross-attention to construct a triplane-based 3D avatar representation. Extensive experiments on multiple benchmarks demonstrate the superiority of our approach, both quantitatively and qualitatively, as well as its robustness under diverse input image conditions. Project page at https://HumanNOVA.github.io .
- Abstract(参考訳): 本稿では,1枚のRGB画像から3次元アバターを生成するための,フォトリアリスティック,ユニバーサル,高速なモデルであるHumanNOVAを提案する。
多様な高品質な3Dデータの不足のため、フォトリアリズムと一般化の両面での達成は困難である。
これを解決するために、私たちは2つの戦略に従うスケーラブルなデータ生成パイプラインを構築しました。
1つ目は、既存の密閉資産を活用し、それらを日常生活から広範囲のポーズでアニメーション化することだ。
第2の戦略は、既存の人間のマルチカメラキャプチャーを利用して、トレーニングのためにより多様なビューを生成することである。
これら2つの戦略により、100kまでの資産をスケールアップすることが可能となり、堅牢なモデルトレーニングのためのデータ量と多様性の両方を著しく向上させます。
アーキテクチャの面では、HumanNOVAはフィードフォワードでトークン条件のアバターモデリングフレームワークを採用しており、1秒未満で高速な推論が可能で、テストタイムの最適化は不要である。
入力画像と、詳細な幾何学や外観のない推定単純化されたヒューマンメッシュ(SMPL)が与えられた後、モデルはまず両方の入力をコンパクトなトークン表現に符号化する。
これらのトークンはコンディショニング信号として機能し、三面体ベースの3Dアバター表現を構築するためにクロスアテンションを通して融合される。
複数のベンチマークでの大規模な実験は、様々な入力画像条件下での頑健さと同様に、定量的かつ質的に、我々のアプローチの優越性を実証している。
Project page at https://HumanNOVA.github.io を参照。
関連論文リスト
- Hyper Diffusion Avatars: Dynamic Human Avatar Generation using Network Weight Space Diffusion [45.88321772203678]
個人固有のレンダリングと拡散に基づく生成モデリングの長所を一体化する新しい手法を提案する。
まず、人間固有のUNETの集合を最適化し、各ネットワークは動的な人間のアバターを表す。
提案手法は,動的アバターのリアルタイムかつ制御可能なレンダリングのためのネットワーク重みを生成する。
論文 参考訳(メタデータ) (2025-09-04T12:15:55Z) - IDOL: Instant Photorealistic 3D Human Creation from a Single Image [47.51400420928373]
この作業は、データセット、モデル、表現の観点からタスクを再考する。
大規模なHUman中心のGEnerated GEnerated データセットであるHuGe100Kを紹介した。
我々は、与えられた人間の画像から一様空間における3次元ガウス表現を予測するスケーラブルなフィードフォワードトランスフォーマーモデルを開発した。
論文 参考訳(メタデータ) (2024-12-19T15:43:05Z) - Instant 3D Human Avatar Generation using Image Diffusion Models [37.45927867788691]
AvatarPopUpは、異なる入力モードから高速で高品質な3Dアバターを生成する方法である。
われわれのアプローチでは、わずか2秒で3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2024-06-11T17:47:27Z) - CapHuman: Capture Your Moments in Parallel Universes [60.06408546134581]
CapHumanという新しいフレームワークを紹介します。
CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。
モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文 参考訳(メタデータ) (2024-02-01T14:41:59Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - AvatarGen: a 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、多様な外観を持つ非剛体世代だけでなく、ポーズや視点の完全な制御を可能にする最初の方法である。
非剛性力学をモデル化するために、正準空間におけるポーズ依存的な変形を学習するための変形ネットワークを導入する。
提案手法は,高品質な外観と幾何モデルを備えたアニマタブルな人体アバターを生成でき,従来の3D GANよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-08-01T01:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。