論文の概要: NormalGAN: Learning Detailed 3D Human from a Single RGB-D Image
- arxiv url: http://arxiv.org/abs/2007.15340v1
- Date: Thu, 30 Jul 2020 09:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 14:15:59.669715
- Title: NormalGAN: Learning Detailed 3D Human from a Single RGB-D Image
- Title(参考訳): NormalGAN:1枚のRGB-D画像から詳細な3D人間を学習する
- Authors: Lizhen Wang, Xiaochen Zhao, Tao Yu, Songtao Wang, Yebin Liu
- Abstract要約: 本稿では,1枚のRGB-D画像から完全かつ詳細な3次元人間を再構築する高速対角学習法を提案する。
一般消費者のRGB-Dセンサーを使用すれば、NurmalGANは20fpsで完全な3D人間の再構築結果を生成することができる。
- 参考スコア(独自算出の注目度): 34.79657678041356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose NormalGAN, a fast adversarial learning-based method to reconstruct
the complete and detailed 3D human from a single RGB-D image. Given a single
front-view RGB-D image, NormalGAN performs two steps: front-view RGB-D
rectification and back-view RGBD inference. The final model was then generated
by simply combining the front-view and back-view RGB-D information. However,
inferring backview RGB-D image with high-quality geometric details and
plausible texture is not trivial. Our key observation is: Normal maps generally
encode much more information of 3D surface details than RGB and depth images.
Therefore, learning geometric details from normal maps is superior than other
representations. In NormalGAN, an adversarial learning framework conditioned by
normal maps is introduced, which is used to not only improve the front-view
depth denoising performance, but also infer the back-view depth image with
surprisingly geometric details. Moreover, for texture recovery, we remove
shading information from the front-view RGB image based on the refined normal
map, which further improves the quality of the back-view color inference.
Results and experiments on both testing data set and real captured data
demonstrate the superior performance of our approach. Given a consumer RGB-D
sensor, NormalGAN can generate the complete and detailed 3D human
reconstruction results in 20 fps, which further enables convenient interactive
experiences in telepresence, AR/VR and gaming scenarios.
- Abstract(参考訳): RGB-D画像から完全かつ詳細な3次元人体を再構成する高速対角学習法であるNurmalGANを提案する。
単一のフロントビューのRGB-D画像が与えられた場合、NormalGANはフロントビューのRGB-D補正とバックビューのRGBD推論という2つのステップを実行する。
最終モデルは、単純にフロントビューとバックビューのRGB-D情報を組み合わせることで生成される。
しかし、高品質な幾何学的詳細と可視的なテクスチャを備えたRGB-D画像の背景推定は簡単ではない。
通常の地図は、通常、RGBや深度画像よりも多くの3D表面の詳細情報をエンコードします。
したがって、通常の写像から幾何学的詳細を学ぶことは、他の表現よりも優れている。
正規GANでは, 正面視深度推定性能の向上だけでなく, 後方視深度像を驚くほどの幾何学的詳細で推測するために, 正規マップで条件付き対向学習フレームワークを導入する。
さらに,テクスチャリカバリのために,改良された正規地図に基づくフロントビューRGB画像からシェーディング情報を除去し,バックビューカラー推論の品質をさらに向上させる。
テストデータセットと実際のキャプチャデータの両方に関する結果と実験は、我々のアプローチの優れた性能を示している。
消費者向けのRGB-Dセンサーがあれば、NormalGANは20fpsで完全な3D人間の再構築結果を生成することができ、テレプレゼンス、AR/VR、ゲームシナリオで便利なインタラクティブな体験を可能にする。
関連論文リスト
- Normal-guided Detail-Preserving Neural Implicit Functions for High-Fidelity 3D Surface Reconstruction [6.4279213810512665]
RGBまたはRGBD画像からニューラル暗黙表現を学習する現在の方法は、欠落した部分と詳細を持つ3D曲面を生成する。
本稿では,1次微分特性を持つニューラル表現のトレーニング,すなわち表面正規化が,高精度な3次元表面再構成をもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-07T11:48:47Z) - ANIM: Accurate Neural Implicit Model for Human Reconstruction from a single RGB-D image [40.03212588672639]
ANIMは単視点RGB-D画像から任意の3次元形状を前例のない精度で再構成する新しい手法である。
我々のモデルは、深度情報を活用するためにピクセル整列とボクセル整列の両方の機能から幾何学的詳細を学習する。
実験によると、ANIMはRGB、表面正規、ポイントクラウド、RGB-Dデータを入力として使用する最先端の作業よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T14:45:38Z) - A novel approach for holographic 3D content generation without depth map [2.905273049932301]
与えられたRGB画像のみを用いてボリュームデジタルホログラムを合成する深層学習方式を提案する。
実験により,提案モデルにより生成された体積ホログラムは,競合モデルよりも精度が高いことを示した。
論文 参考訳(メタデータ) (2023-09-26T14:37:31Z) - DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation [76.81628995237058]
DFormerは、RGB-Dセグメンテーションタスクの転送可能な表現を学ぶための新しいフレームワークである。
ImageNet-1Kから画像深度ペアを使用してバックボーンを事前トレーニングする。
DFormerは2つのRGB-Dタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-18T11:09:11Z) - Beyond Visual Field of View: Perceiving 3D Environment with Echoes and
Vision [51.385731364529306]
本稿では,エコーとRGB画像を用いた3次元環境の知覚とナビゲーションに焦点を当てた。
特に、複数の方向から受信したエコーでRGB画像を融合して深度推定を行う。
本稿では,RGB像を補完する3次元構造について,エコーが包括的かつ包括的情報を提供することを示す。
論文 参考訳(メタデータ) (2022-07-03T22:31:47Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Semantic-embedded Unsupervised Spectral Reconstruction from Single RGB
Images in the Wild [48.44194221801609]
この課題に対処するため、我々は、新しい軽量でエンドツーエンドの学習ベースのフレームワークを提案する。
我々は、効率的なカメラスペクトル応答関数推定により、検索されたHS画像から入力されたRGB画像と再投影されたRGB画像の差を徐々に広げる。
提案手法は最先端の教師なし手法よりも優れており,いくつかの設定下では最新の教師付き手法よりも優れている。
論文 参考訳(メタデータ) (2021-08-15T05:19:44Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。