論文の概要: Detailed 3D Human Body Reconstruction from Multi-view Images Combining
Voxel Super-Resolution and Learned Implicit Representation
- arxiv url: http://arxiv.org/abs/2012.06178v1
- Date: Fri, 11 Dec 2020 08:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 07:20:17.180814
- Title: Detailed 3D Human Body Reconstruction from Multi-view Images Combining
Voxel Super-Resolution and Learned Implicit Representation
- Title(参考訳): Voxel Super-ResolutionとLearred Implicit Representationを組み合わせた多視点画像からの詳細な3次元人体再構成
- Authors: Zhongguo Li, Magnus Oskarsson, Anders Heyden
- Abstract要約: 多視点画像から詳細な3次元人体を再構築する粗い方法を提案する。
粗い3Dモデルは、マルチスケールな特徴に基づいて暗黙表現を学習することによって推定される。
洗練された3D人体モデルは、詳細を保存できるボクセル超解像によって製造することができる。
- 参考スコア(独自算出の注目度): 12.459968574683625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of reconstructing detailed 3D human body models from images is
interesting but challenging in computer vision due to the high freedom of human
bodies. In order to tackle the problem, we propose a coarse-to-fine method to
reconstruct a detailed 3D human body from multi-view images combining voxel
super-resolution based on learning the implicit representation. Firstly, the
coarse 3D models are estimated by learning an implicit representation based on
multi-scale features which are extracted by multi-stage hourglass networks from
the multi-view images. Then, taking the low resolution voxel grids which are
generated by the coarse 3D models as input, the voxel super-resolution based on
an implicit representation is learned through a multi-stage 3D convolutional
neural network. Finally, the refined detailed 3D human body models can be
produced by the voxel super-resolution which can preserve the details and
reduce the false reconstruction of the coarse 3D models. Benefiting from the
implicit representation, the training process in our method is memory efficient
and the detailed 3D human body produced by our method from multi-view images is
the continuous decision boundary with high-resolution geometry. In addition,
the coarse-to-fine method based on voxel super-resolution can remove false
reconstructions and preserve the appearance details in the final
reconstruction, simultaneously. In the experiments, our method quantitatively
and qualitatively achieves the competitive 3D human body reconstructions from
images with various poses and shapes on both the real and synthetic datasets.
- Abstract(参考訳): 画像から詳細な3次元人体モデルを再構築する作業は興味深いが、人間の身体の自由度が高いコンピュータビジョンでは難しい。
この問題に対処するために,暗黙表現の学習に基づくボクセル超解像を組み合わせた多視点画像から詳細な3次元人体を再構築する粗大な手法を提案する。
まず,多視点画像から多段階の時間ガラスネットワークから抽出したマルチスケール特徴に基づいて暗黙の表現を学習することにより,粗い3次元モデルを推定する。
そして、粗い3dモデルによって生成された低解像度ボクセルグリッドを入力として、暗黙表現に基づくボクセル超解像を多段3d畳み込みニューラルネットワークを介して学習する。
最後に、洗練された精巧な3d人体モデルはvoxel super- resolutionによって作成することができ、細部を保存でき、粗い3dモデルの偽の再構築を低減できる。
暗黙的表現から見れば,本手法のトレーニングプロセスはメモリ効率が高く,多視点画像から得られた詳細な3次元人体は,高分解能幾何を用いた連続決定境界である。
また,voxelスーパーレゾリューションに基づく粗粒度法では,偽復元を除去し,最終レゾリューションの外観詳細を保存できる。
実験では,実データと合成データの両方に様々なポーズと形状を持つ画像から,定量的に定性的に3次元人体再構成を実現する。
関連論文リスト
- COSMU: Complete 3D human shape from monocular unconstrained images [24.08612483445495]
対象画像から完全な3次元人物形状を再構成するための新しい枠組みを提案する。
本研究の目的は、入力対象に見えない再建された人体の領域において、高品質な詳細を再現することである。
論文 参考訳(メタデータ) (2024-07-15T10:06:59Z) - HR Human: Modeling Human Avatars with Triangular Mesh and High-Resolution Textures from Videos [52.23323966700072]
本研究では,モノクロ映像から高精細な物理材料テクスチャとメッシュを付加したアバターの取得のための枠組みを提案する。
本手法では,モノクロ映像からの情報を組み合わせて仮想多視点画像の合成を行う新しい情報融合方式を提案する。
実験により, 提案手法は, 高忠実度で従来の表現よりも優れており, この明示的な結果は共通三角形への展開をサポートすることが示された。
論文 参考訳(メタデータ) (2024-05-18T11:49:09Z) - SemanticHuman-HD: High-Resolution Semantic Disentangled 3D Human Generation [12.063815354055052]
本稿ではセマンティックHuman-HDについて紹介する。
SemanticHuman-HDは10242ドルの解像度で3D認識画像合成を実現する最初の方法でもある。
提案手法は, 3次元衣服生成, セマンティック・アウェア画像合成, 制御可能な画像合成など, 様々な用途にエキサイティングな可能性を開く。
論文 参考訳(メタデータ) (2024-03-15T10:18:56Z) - What You See is What You GAN: Rendering Every Pixel for High-Fidelity
Geometry in 3D GANs [82.3936309001633]
3D-aware Generative Adversarial Networks (GANs) は,マルチビュー一貫性画像と3Dジオメトリを生成する学習において,顕著な進歩を見せている。
しかし、ボリュームレンダリングにおける高密度サンプリングの大幅なメモリと計算コストにより、3D GANはパッチベースのトレーニングを採用するか、後処理の2Dスーパーレゾリューションで低解像度レンダリングを採用することを余儀なくされた。
ニューラルボリュームレンダリングをネイティブ2次元画像の高解像度化に拡張する手法を提案する。
論文 参考訳(メタデータ) (2024-01-04T18:50:38Z) - High-fidelity 3D Human Digitization from Single 2K Resolution Images [16.29087820634057]
大規模な2K人間のデータセットを構築し、2K解像度画像から3次元人間のモデルを推定する2K2Kを提案する。
また, テクスチャマップ, 3Dジョイント, SMPLパラメータなど, 2,050個の人体モデルも提供する。
論文 参考訳(メタデータ) (2023-03-27T11:22:54Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - 3D Human Pose, Shape and Texture from Low-Resolution Images and Videos [107.36352212367179]
本稿では,解像度認識ネットワーク,自己スーパービジョン損失,コントラスト学習スキームからなるrsc-netを提案する。
提案手法は1つのモデルで異なる解像度で3次元物体のポーズと形状を学習できる。
低解像度映像を扱うRSC-Netを拡張し、低解像度入力からテクスチャ化された3D歩行者の再構築に適用します。
論文 参考訳(メタデータ) (2021-03-11T06:52:12Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - 3D Human Shape and Pose from a Single Low-Resolution Image with
Self-Supervised Learning [105.49950571267715]
3次元人物形状とポーズ推定のための既存のディープラーニング手法は、比較的高解像度な入力画像に依存している。
本稿では,レゾリューション・アウェア・ネットワーク,セルフ・スーパービジョン・ロス,コントラッシブ・ラーニング・スキームからなるRCC-Netを提案する。
これら2つの新たなトレーニング損失は,3次元形状を学習し,弱教師ありの姿勢を示す。
論文 参考訳(メタデータ) (2020-07-27T16:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。