論文の概要: One-shot Implicit Animatable Avatars with Model-based Priors
- arxiv url: http://arxiv.org/abs/2212.02469v4
- Date: Wed, 27 Sep 2023 05:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 22:13:55.264937
- Title: One-shot Implicit Animatable Avatars with Model-based Priors
- Title(参考訳): モデルベースプリミティブを用いたワンショットインシシタブルアニマタブルアバター
- Authors: Yangyi Huang, Hongwei Yi, Weiyang Liu, Haofan Wang, Boxi Wu, Wenxiao
Wang, Binbin Lin, Debing Zhang, Deng Cai
- Abstract要約: ELICITは、1つの画像から人間固有の神経放射場を学習する新しい方法である。
ELICITは、単一のイメージしか利用できない場合、アバター生成の強力なベースライン手法よりも優れている。
- 参考スコア(独自算出の注目度): 31.385051428938585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing neural rendering methods for creating human avatars typically either
require dense input signals such as video or multi-view images, or leverage a
learned prior from large-scale specific 3D human datasets such that
reconstruction can be performed with sparse-view inputs. Most of these methods
fail to achieve realistic reconstruction when only a single image is available.
To enable the data-efficient creation of realistic animatable 3D humans, we
propose ELICIT, a novel method for learning human-specific neural radiance
fields from a single image. Inspired by the fact that humans can effortlessly
estimate the body geometry and imagine full-body clothing from a single image,
we leverage two priors in ELICIT: 3D geometry prior and visual semantic prior.
Specifically, ELICIT utilizes the 3D body shape geometry prior from a skinned
vertex-based template model (i.e., SMPL) and implements the visual clothing
semantic prior with the CLIP-based pretrained models. Both priors are used to
jointly guide the optimization for creating plausible content in the invisible
areas. Taking advantage of the CLIP models, ELICIT can use text descriptions to
generate text-conditioned unseen regions. In order to further improve visual
details, we propose a segmentation-based sampling strategy that locally refines
different parts of the avatar. Comprehensive evaluations on multiple popular
benchmarks, including ZJU-MoCAP, Human3.6M, and DeepFashion, show that ELICIT
has outperformed strong baseline methods of avatar creation when only a single
image is available. The code is public for research purposes at
https://huangyangyi.github.io/ELICIT/.
- Abstract(参考訳): 人間のアバターを作る既存のニューラルレンダリング手法は、ビデオやマルチビュー画像のような濃密な入力信号を必要とするか、あるいは大規模な3d人間のデータセットから学習された事前情報を活用して、スパースビュー入力で再構成することができる。
これらの手法のほとんどは、1つの画像しか利用できない場合に現実的な再構築を達成できない。
現実的なアニマタブルな3次元人間のデータ効率向上を実現するために,1つの画像から人間固有の神経放射場を学習する新しい手法であるELICITを提案する。
人間は身体の幾何学を熱心に推定し、1つの画像から全身の衣服を想像できるという事実に触発され、ELICITの2つの先行する3D幾何と視覚的セマンティクスを利用する。
特に、ELICITは、スキン付き頂点ベースのテンプレートモデル(SMPL)に先立って3次元の体形形状を利用しており、CLIPベースの事前訓練モデルに先立って視覚的な衣服のセマンティクスを実装している。
両方のプリエントは、不可視領域で実行可能なコンテンツを作成するための最適化を共同でガイドするために使用される。
CLIPモデルを活用することで、ELICITはテキスト記述を使用してテキスト条件の見えないリージョンを生成することができる。
視覚的詳細をさらに改善するために,アバターの異なる部分を局所的に洗練するセグメンテーションに基づくサンプリング戦略を提案する。
ZJU-MoCAP、Human3.6M、DeepFashionを含む複数の人気のあるベンチマークに関する総合的な評価は、ELICITが単一の画像しか利用できない場合、アバター生成の強力なベースライン手法よりも優れていることを示している。
コードは研究目的でhttps://huangyangyi.github.io/elicit/で公開されている。
関連論文リスト
- FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - NECA: Neural Customizable Human Avatar [36.69012172745299]
モノクラービデオやスパースビュービデオから多目的な人間の表現を学習する手法であるNECAを紹介する。
我々のアプローチの中核は、補完的な双対空間で人間を表現し、幾何学、アルベド、シャドー、および外部照明の非絡み合った神経場を予測することである。
論文 参考訳(メタデータ) (2024-03-15T14:23:06Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - Generalizable One-shot Neural Head Avatar [90.50492165284724]
本研究では,1枚の画像から3次元頭部アバターを再構成し,アニメイトする手法を提案する。
本研究では,一視点画像に基づく識別不能な人物を一般化するだけでなく,顔領域内外における特徴的詳細を捉えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T22:33:09Z) - Single-Shot Implicit Morphable Faces with Consistent Texture
Parameterization [91.52882218901627]
本稿では,3次元形態素な顔モデルを構築するための新しい手法を提案する。
本手法は, 最先端手法と比較して, フォトリアリズム, 幾何, 表現精度を向上する。
論文 参考訳(メタデータ) (2023-05-04T17:58:40Z) - AvatarGen: A 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、様々な外観と制御可能なジオメトリーを持つ3D認識された人間の無監督世代である。
提案手法は, 高品質な外観と幾何学的モデリングにより, アニマタブルな3次元アバターを生成することができる。
シングルビュー再構成、再アニメーション、テキスト誘導合成/編集など、多くのアプリケーションに向いている。
論文 参考訳(メタデータ) (2022-11-26T15:15:45Z) - Neural Capture of Animatable 3D Human from Monocular Video [38.974181971541846]
本稿では,モノクラービデオ入力からアニマタブルな3次元人間の表現を構築するための新しいパラダイムを提案する。
本手法は,メッシュをベースとしたパラメトリックな3次元人体モデルを用いた動的ニューラルレージアンス場(NeRF)に基づく。
論文 参考訳(メタデータ) (2022-08-18T09:20:48Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。