論文の概要: MetaAvatar: Learning Animatable Clothed Human Models from Few Depth
Images
- arxiv url: http://arxiv.org/abs/2106.11944v1
- Date: Tue, 22 Jun 2021 17:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 14:53:30.680718
- Title: MetaAvatar: Learning Animatable Clothed Human Models from Few Depth
Images
- Title(参考訳): MetaAvatar:少ない深度画像からアニメーション化された人間のモデルを学ぶ
- Authors: Shaofei Wang, Marko Mihajlovic, Qianli Ma, Andreas Geiger, Siyu Tang
- Abstract要約: 新規な入力ポーズから現実的な布の変形を生成するには、通常、水密メッシュや高密度フルボディスキャンが入力として必要とされる。
本研究では, 単眼深度画像のみを考慮し, 制御可能なニューラルSDFとして表現された, リアルな衣服付きアバターを迅速に生成する手法を提案する。
- 参考スコア(独自算出の注目度): 60.56518548286836
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we aim to create generalizable and controllable neural signed
distance fields (SDFs) that represent clothed humans from monocular depth
observations. Recent advances in deep learning, especially neural implicit
representations, have enabled human shape reconstruction and controllable
avatar generation from different sensor inputs. However, to generate realistic
cloth deformations from novel input poses, watertight meshes or dense full-body
scans are usually needed as inputs. Furthermore, due to the difficulty of
effectively modeling pose-dependent cloth deformations for diverse body shapes
and cloth types, existing approaches resort to per-subject/cloth-type
optimization from scratch, which is computationally expensive. In contrast, we
propose an approach that can quickly generate realistic clothed human avatars,
represented as controllable neural SDFs, given only monocular depth images. We
achieve this by using meta-learning to learn an initialization of a
hypernetwork that predicts the parameters of neural SDFs. The hypernetwork is
conditioned on human poses and represents a clothed neural avatar that deforms
non-rigidly according to the input poses. Meanwhile, it is meta-learned to
effectively incorporate priors of diverse body shapes and cloth types and thus
can be much faster to fine-tune, compared to models trained from scratch. We
qualitatively and quantitatively show that our approach outperforms
state-of-the-art approaches that require complete meshes as inputs while our
approach requires only depth frames as inputs and runs orders of magnitudes
faster. Furthermore, we demonstrate that our meta-learned hypernetwork is very
robust, being the first to generate avatars with realistic dynamic cloth
deformations given as few as 8 monocular depth frames.
- Abstract(参考訳): 本稿では,単眼深度観測から人間を表現できる汎用的で制御可能なニューラルサイン付き距離場(sdfs)を作成することを目的としている。
ディープラーニングの最近の進歩、特にニューラルネットワークの暗黙的表現は、さまざまなセンサー入力から人間の形状再構成と制御可能なアバター生成を可能にした。
しかし、新しい入力ポーズから現実的な布の変形を生み出すためには、通常、水密なメッシュや密集した全身スキャンが入力として必要となる。
さらに, 多様な体型や布型に対してポーズ依存の布の変形を効果的にモデル化することが困難であったため, 既存の手法では, スクラッチからオブジェクト単位, 衣服単位の最適化を採用しており, 計算コストがかかる。
対照的に、単眼深度画像のみを考慮し、制御可能なニューラルSDFとして表現されたリアルな人間のアバターを迅速に生成できるアプローチを提案する。
神経sdfのパラメータを予測するハイパーネットワークの初期化を,メタラーニングを用いて学習することで実現する。
ハイパーネットワークは人間のポーズに条件付けされ、入力されたポーズに応じて不規則に変形する布張りのニューラルアバターを表す。
一方、様々な体型や布型を効果的に組み込むようにメタ学習されており、スクラッチから訓練されたモデルよりもはるかに速く微調整することができる。
我々のアプローチは入力として完全なメッシュを必要とする最先端のアプローチより優れており、我々のアプローチは入力として深度フレームのみを必要とし、桁違いに高速に実行する。
さらに,我々のメタリーナー付きハイパーネットワークは非常に頑健であり,最大8種類の単眼深度フレームを付与する現実的な動的布変形を持つアバターを最初に生成した。
関連論文リスト
- HR Human: Modeling Human Avatars with Triangular Mesh and High-Resolution Textures from Videos [52.23323966700072]
本研究では,モノクロ映像から高精細な物理材料テクスチャとメッシュを付加したアバターの取得のための枠組みを提案する。
本手法では,モノクロ映像からの情報を組み合わせて仮想多視点画像の合成を行う新しい情報融合方式を提案する。
実験により, 提案手法は, 高忠実度で従来の表現よりも優れており, この明示的な結果は共通三角形への展開をサポートすることが示された。
論文 参考訳(メタデータ) (2024-05-18T11:49:09Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - Human Gaussian Splatting: Real-time Rendering of Animatable Avatars [8.719797382786464]
この研究は、マルチビュービデオから得られたフォトリアリスティックな人体アバターのリアルタイムレンダリングの問題に対処する。
本稿では,3次元ガウススプラッティングに基づくアニマタブルな人体モデルを提案する。
提案手法は, THuman4データセット上での最先端PSNRの改善を1.5dBで実現し, リアルタイムにレンダリングできる(512x512の80 fps)。
論文 参考訳(メタデータ) (2023-11-28T12:05:41Z) - DINAR: Diffusion Inpainting of Neural Textures for One-Shot Human
Avatars [7.777410338143783]
本稿では,1枚のRGB画像からリアルなフルボディアバターを作成するためのアプローチを提案する。
本手法は, SMPL-Xボディーモデルと組み合わせた神経テクスチャを用いて, アバターのフォトリアリスティックな品質を実現する。
実験では、最新のレンダリング品質と、新しいポーズや視点への優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-03-16T15:04:10Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Neural Actor: Neural Free-view Synthesis of Human Actors with Pose
Control [80.79820002330457]
任意の視点と任意の制御可能なポーズの下での人間の高品質な合成法を提案する。
提案手法は,新しいポーズ合成法と同様に,再生時の最先端技術よりも優れた品質を実現し,トレーニングポーズと大きく異なる新しいポーズを一般化することができる。
論文 参考訳(メタデータ) (2021-06-03T17:40:48Z) - PVA: Pixel-aligned Volumetric Avatars [34.929560973779466]
少数の入力から人間の頭部の体積アバターを予測するための新しいアプローチを考案する。
提案手法は,光度再レンダリングによる損失のみを前提としたエンドツーエンドで,明示的な3次元監視を必要とせずに訓練を行う。
論文 参考訳(メタデータ) (2021-01-07T18:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。