論文の概要: FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images
- arxiv url: http://arxiv.org/abs/2503.19207v1
- Date: Mon, 24 Mar 2025 23:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:41.591913
- Title: FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images
- Title(参考訳): FRESA:少数画像からの個人化皮膚アバターのフェードフォワード再構成
- Authors: Rong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh,
- Abstract要約: 数枚の画像からリアルなアニメーションで、パーソナライズされた3Dアバターを再構成する新しい手法を提案する。
我々は、1000人以上の服を着た人間から普遍的な事前学習を行い、即時フィードフォワード生成とゼロショット一般化を実現する。
提案手法は, 最新技術よりも忠実な再構築とアニメーションを生成し, カジュアルに撮影された携帯電話写真からの入力に直接一般化することができる。
- 参考スコア(独自算出の注目度): 74.86864398919467
- License:
- Abstract: We present a novel method for reconstructing personalized 3D human avatars with realistic animation from only a few images. Due to the large variations in body shapes, poses, and cloth types, existing methods mostly require hours of per-subject optimization during inference, which limits their practical applications. In contrast, we learn a universal prior from over a thousand clothed humans to achieve instant feedforward generation and zero-shot generalization. Specifically, instead of rigging the avatar with shared skinning weights, we jointly infer personalized avatar shape, skinning weights, and pose-dependent deformations, which effectively improves overall geometric fidelity and reduces deformation artifacts. Moreover, to normalize pose variations and resolve coupled ambiguity between canonical shapes and skinning weights, we design a 3D canonicalization process to produce pixel-aligned initial conditions, which helps to reconstruct fine-grained geometric details. We then propose a multi-frame feature aggregation to robustly reduce artifacts introduced in canonicalization and fuse a plausible avatar preserving person-specific identities. Finally, we train the model in an end-to-end framework on a large-scale capture dataset, which contains diverse human subjects paired with high-quality 3D scans. Extensive experiments show that our method generates more authentic reconstruction and animation than state-of-the-arts, and can be directly generalized to inputs from casually taken phone photos. Project page and code is available at https://github.com/rongakowang/FRESA.
- Abstract(参考訳): 数枚の画像からリアルなアニメーションで、パーソナライズされた3Dアバターを再構成する新しい手法を提案する。
体の形状、ポーズ、布の種類に大きなバリエーションがあるため、既存の手法では推論中にオブジェクトごとの最適化に何時間も要することが多く、実用性に制限がある。
対照的に、数千人以上の服を着た人間から普遍的な事前学習を行い、即時フィードフォワード生成とゼロショット一般化を実現する。
具体的には、アバターを共有スキンウェイトでリグするのではなく、パーソナライズされたアバター形状、スキンウェイト、およびポーズ依存変形を共同で推算し、全体的な幾何学的忠実度を効果的に改善し、変形アーチファクトを低減する。
さらに、ポーズの変分を正規化し、正準形状とスキンウェイトとのあいまいさの結合を解消するために、画素整列初期条件を生成する3次元正準化法を設計し、微粒な幾何学的詳細を再構築するのに役立つ。
次に,正準化で導入されたアーティファクトを頑健に削減し,個人固有のアイデンティティを保持する可塑性アバターを融合する多フレーム機能アグリゲーションを提案する。
最後に,高品質な3Dスキャンと組み合わせた多種多様な被験者を含む大規模キャプチャデータセット上で,エンド・ツー・エンドのフレームワークでモデルをトレーニングする。
広汎な実験により,本手法は最先端技術よりも忠実な再構築とアニメーションを生成でき,カジュアルに撮影された携帯電話写真からの入力に直接一般化できることがわかった。
プロジェクトページとコードはhttps://github.com/rongakowang/FRESA.comで公開されている。
関連論文リスト
- AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction [26.82525451095629]
本稿では,不整合画像の3次元再構成のためのロバストな手法を提案し,推論中のリアルタイムレンダリングを実現する。
再建問題を4次元課題として再検討し, 4次元ガウススプラッティングを用いた効率的な3次元モデリング手法を提案する。
実験により,本手法は3次元人体アバターの光実写・リアルタイムアニメーションを実現する。
論文 参考訳(メタデータ) (2024-12-03T18:55:39Z) - Generalizable One-shot Neural Head Avatar [90.50492165284724]
本研究では,1枚の画像から3次元頭部アバターを再構成し,アニメイトする手法を提案する。
本研究では,一視点画像に基づく識別不能な人物を一般化するだけでなく,顔領域内外における特徴的詳細を捉えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T22:33:09Z) - AniPixel: Towards Animatable Pixel-Aligned Human Avatar [65.7175527782209]
AniPixelは、アニマタブルで一般化可能なヒトアバター再構成法である。
本研究では, 骨格変形に基づく神経スキンフィールドを提案し, 標的-カノニカル・カノニカル・カノニカル・カノニカル・カノニカル・カノニカル・カノニカル・カノニカル・カノニカル・カノニアル・カノニアル・カノニアル・カノニアル・カノニアル・カノニアル・カノニアル・カノニアル・カノニアル・カノニアル・カ
実験では、AniPixelは最先端の手法よりも優れた新しいポーズのアニメーション結果を提供しながら、同等の斬新なビューをレンダリングしている。
論文 参考訳(メタデータ) (2023-02-07T11:04:14Z) - One-shot Implicit Animatable Avatars with Model-based Priors [31.385051428938585]
ELICITは、1つの画像から人間固有の神経放射場を学習する新しい方法である。
ELICITは、単一のイメージしか利用できない場合、アバター生成の強力なベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-05T18:24:06Z) - AvatarGen: A 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、様々な外観と制御可能なジオメトリーを持つ3D認識された人間の無監督世代である。
提案手法は, 高品質な外観と幾何学的モデリングにより, アニマタブルな3次元アバターを生成することができる。
シングルビュー再構成、再アニメーション、テキスト誘導合成/編集など、多くのアプリケーションに向いている。
論文 参考訳(メタデータ) (2022-11-26T15:15:45Z) - AvatarGen: a 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、多様な外観を持つ非剛体世代だけでなく、ポーズや視点の完全な制御を可能にする最初の方法である。
非剛性力学をモデル化するために、正準空間におけるポーズ依存的な変形を学習するための変形ネットワークを導入する。
提案手法は,高品質な外観と幾何モデルを備えたアニマタブルな人体アバターを生成でき,従来の3D GANよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-08-01T01:27:02Z) - MVP-Human Dataset for 3D Human Avatar Reconstruction from Unconstrained
Frames [59.37430649840777]
野生(Arwild)における3次元アバター再構成を行い,まず暗黙のスキンフィールドを多段階的に再構成する。
大規模なデータセットであるMVP-Humanには400人の被験者が参加し、それぞれ異なるポーズで15のスキャンを行います。
全体として、特定のネットワークアーキテクチャと多様なデータにより、トレーニングされたモデルは、制約のないフレームから3Dアバターを再構築することができる。
論文 参考訳(メタデータ) (2022-04-24T03:57:59Z) - Multi-person Implicit Reconstruction from a Single Image [37.6877421030774]
本稿では,1つの画像から複数の人物の詳細な空間的コヒーレントな再構築を実現するための新しいエンドツーエンド学習フレームワークを提案する。
既存のマルチパーソンメソッドは、モデルベースで、ゆるい服と髪の人々の正確な3dモデルをキャプチャできないことが多いという、2つの大きな欠点を抱えている。
論文 参考訳(メタデータ) (2021-04-19T13:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。