論文の概要: Learning High Fidelity Depths of Dressed Humans by Watching Social Media
Dance Videos
- arxiv url: http://arxiv.org/abs/2103.03319v1
- Date: Thu, 4 Mar 2021 20:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 14:52:59.584929
- Title: Learning High Fidelity Depths of Dressed Humans by Watching Social Media
Dance Videos
- Title(参考訳): ソーシャルメディアのダンス映像から身近な人物の忠実度を学習する
- Authors: Yasamin Jafarian, Hyun Soo Park
- Abstract要約: 本稿では,その人物の予測された局所形状を,別の瞬間に画像から別の画像へ警告する局所変換を用いた新しい手法を提案する。
本手法はエンドツーエンドで訓練可能であり,入力実画像に忠実な微細形状を予測できる高忠実度深さ推定を行う。
- 参考スコア(独自算出の注目度): 21.11427729302936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge of learning the geometry of dressed humans lies in the
limited availability of the ground truth data (e.g., 3D scanned models), which
results in the performance degradation of 3D human reconstruction when applying
to real-world imagery. We address this challenge by leveraging a new data
resource: a number of social media dance videos that span diverse appearance,
clothing styles, performances, and identities. Each video depicts dynamic
movements of the body and clothes of a single person while lacking the 3D
ground truth geometry. To utilize these videos, we present a new method to use
the local transformation that warps the predicted local geometry of the person
from an image to that of another image at a different time instant. This allows
self-supervision as enforcing a temporal coherence over the predictions. In
addition, we jointly learn the depth along with the surface normals that are
highly responsive to local texture, wrinkle, and shade by maximizing their
geometric consistency. Our method is end-to-end trainable, resulting in high
fidelity depth estimation that predicts fine geometry faithful to the input
real image. We demonstrate that our method outperforms the state-of-the-art
human depth estimation and human shape recovery approaches on both real and
rendered images.
- Abstract(参考訳): 服を着る人間の幾何学を学ぶための重要な課題は、地上の真実データ(例えば、3Dスキャンされたモデル)の限られた可用性にある。
さまざまな外観、衣料品スタイル、パフォーマンス、アイデンティティにまたがるソーシャルメディアダンスビデオの数:我々は、新しいデータリソースを利用して、この課題に取り組みます。
それぞれのビデオは、1人の身体と衣服のダイナミックな動きを描いているが、3D地上の真実の幾何学は欠如している。
これらの映像を利用するために,予測された人物の局所的幾何を異なるタイミングで他の人物の局所的形状にワープする,局所的変換を用いた新しい手法を提案する。
これにより、予測に対する時間的コヒーレンスを強制する自己超越が可能となる。
さらに, 局所的なテクスチャ, しわ, 日陰に応答する表面の正常値とともに, 幾何的一貫性を最大化することにより, 深度を共に学習する。
本手法はエンドツーエンドで訓練可能であり,入力実画像に忠実な微細形状を予測できる高忠実度深さ推定を行う。
本手法は,実画像とレンダリング画像の両方において,最先端の人間の深度推定と人間の形状復元アプローチに勝ることを示す。
関連論文リスト
- 3D Reconstruction of Interacting Multi-Person in Clothing from a Single
Image [9.43059133300735]
本稿では,1つの画像からグローバルなコヒーレントなシーン空間上の衣服の多人数インタラクションの形状を再構築する,新しいパイプラインを提案する。
この課題を克服するために、人間の2つの先駆体を完全な3次元形状と表面接触に活用する。
その結果,本手法は既存の手法と比較して完全で,グローバルに一貫性があり,物理的に妥当であることがわかった。
論文 参考訳(メタデータ) (2024-01-12T07:23:02Z) - Dynamic Appearance Modeling of Clothed 3D Human Avatars using a Single
Camera [8.308263758475938]
本研究では,動的な動きを持つ人の映像を用いて,布を被った3次元アバターの高品質なモデリング手法を提案する。
明示的なモデリングのために、ニューラルネットワークは、3Dボディモデルのポイントワイドな形状残差と外観特徴を生成することを学習する。
暗黙のモデリングのために、暗黙のネットワークは、外観と3Dモーション特徴を組み合わせて、高忠実な3Dアバターをデコードする。
論文 参考訳(メタデータ) (2023-12-28T06:04:39Z) - R2Human: Real-Time 3D Human Appearance Rendering from a Single Image [46.691972209370704]
R$2$Humanは、1つの画像から3D人間の外見をリアルタイムに推測およびレンダリングするための最初のアプローチである。
本稿では、可視領域の高忠実な色再現を行い、隠蔽領域に対して信頼性の高い色推定を行うエンド・ツー・エンド・ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-10T08:59:43Z) - Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via
Self-supervised Scene Decomposition [40.46674919612935]
Vid2Avatarは、モノクラー・イン・ザ・ワイルドビデオから人間のアバターを学習する手法である。
提案手法は,大規模な人間のスキャンデータから抽出した基礎的監督や先行データを必要としない。
シーンの人間と背景の両方を共同でモデル化することで、シーンの分解と表面の再構築を3Dで直接行う。
論文 参考訳(メタデータ) (2023-02-22T18:59:17Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Generalizable Neural Performer: Learning Robust Radiance Fields for
Human Novel View Synthesis [52.720314035084215]
この研究は、一般のディープラーニングフレームワークを使用して、任意の人間の演奏者の自由視点画像を合成することを目的としている。
我々は、汎用的で堅牢な神経体表現を学習するシンプルな、かつ強力なフレームワーク、Generalizable Neural Performer(GNR)を提案する。
GeneBody-1.0とZJU-Mocapの実験は、最近の最先端の一般化可能な手法よりも、我々の手法の堅牢性を示している。
論文 参考訳(メタデータ) (2022-04-25T17:14:22Z) - Detailed Avatar Recovery from Single Image [50.82102098057822]
本稿では,単一画像からエンフデテールアバターを回収するための新しい枠組みを提案する。
階層的メッシュ変形フレームワークでは、ディープニューラルネットワークを使用して3次元形状を洗練しています。
本手法は,皮膚モデルを超えて,完全なテクスチャで詳細な人体形状を復元することができる。
論文 参考訳(メタデータ) (2021-08-06T03:51:26Z) - Animatable Neural Radiance Fields from Monocular RGB Video [72.6101766407013]
単眼ビデオからの詳細な人体アバター作成のためのアニマタブル神経放射場について述べる。
我々のアプローチは、明示的なポーズ誘導変形を導入することで、人間の動きを伴う動的シーンに神経放射場を拡大する。
実験の結果, 提案手法は, 1) 質の高い細部を持つ暗黙の人間の形状と外観の復元, 2) 任意の視点からの人間の写真リアルなレンダリング, 3) 任意のポーズを持つ人間のアニメーションを実現する。
論文 参考訳(メタデータ) (2021-06-25T13:32:23Z) - Deep3DPose: Realtime Reconstruction of Arbitrarily Posed Human Bodies
from Single RGB Images [5.775625085664381]
本研究では,3次元人間のポーズを正確に再構築し,単一画像から詳細な3次元フルボディ幾何モデルをリアルタイムに構築する手法を提案する。
このアプローチの鍵となるアイデアは、単一のイメージを使用して5つの出力を同時に予測する、新しいエンドツーエンドのマルチタスクディープラーニングフレームワークである。
本研究では,3次元人体フロンティアを進化させ,定量的評価と最先端手法との比較により,単一画像からの再構築を図っている。
論文 参考訳(メタデータ) (2021-06-22T04:26:11Z) - Neural Actor: Neural Free-view Synthesis of Human Actors with Pose
Control [80.79820002330457]
任意の視点と任意の制御可能なポーズの下での人間の高品質な合成法を提案する。
提案手法は,新しいポーズ合成法と同様に,再生時の最先端技術よりも優れた品質を実現し,トレーニングポーズと大きく異なる新しいポーズを一般化することができる。
論文 参考訳(メタデータ) (2021-06-03T17:40:48Z) - Neural Re-Rendering of Humans from a Single Image [80.53438609047896]
本稿では,新しいユーザ定義のポーズと視点の下での人間のニューラルリレンダリング手法を提案する。
私たちのアルゴリズムは、単一の画像から再構築できるパラメトリックメッシュとして体ポーズと形状を表します。
論文 参考訳(メタデータ) (2021-01-11T18:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。