論文の概要: Disentangling 3D Attributes from a Single 2D Image: Human Pose, Shape
and Garment
- arxiv url: http://arxiv.org/abs/2208.03167v1
- Date: Fri, 5 Aug 2022 13:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:48:19.005440
- Title: Disentangling 3D Attributes from a Single 2D Image: Human Pose, Shape
and Garment
- Title(参考訳): 1枚の2d画像から3d属性を分離する:人間のポーズ、形、衣服
- Authors: Xue Hu, Xinghui Li, Benjamin Busam, Yiren Zhou, Ales Leonardis,
Shanxin Yuan
- Abstract要約: 本研究では,2次元画像データのみから不整合3次元属性を抽出する課題に焦点をあてる。
本手法は,これら3つの画像特性の非絡み合った潜在表現を用いた埋め込みを学習する。
本研究では, 暗黙的な形状の損失が, モデルが微細な復元の詳細を復元する上で, どのような効果があるかを示す。
- 参考スコア(独自算出の注目度): 20.17991487155361
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: For visual manipulation tasks, we aim to represent image content with
semantically meaningful features. However, learning implicit representations
from images often lacks interpretability, especially when attributes are
intertwined. We focus on the challenging task of extracting disentangled 3D
attributes only from 2D image data. Specifically, we focus on human appearance
and learn implicit pose, shape and garment representations of dressed humans
from RGB images. Our method learns an embedding with disentangled latent
representations of these three image properties and enables meaningful
re-assembling of features and property control through a 2D-to-3D
encoder-decoder structure. The 3D model is inferred solely from the feature map
in the learned embedding space. To the best of our knowledge, our method is the
first to achieve cross-domain disentanglement for this highly under-constrained
problem. We qualitatively and quantitatively demonstrate our framework's
ability to transfer pose, shape, and garments in 3D reconstruction on virtual
data and show how an implicit shape loss can benefit the model's ability to
recover fine-grained reconstruction details.
- Abstract(参考訳): 視覚操作タスクでは,画像コンテンツを意味的に意味のある特徴で表現することを目指している。
しかし、画像から暗黙の表現を学ぶことは、特に属性が絡み合っている場合、解釈可能性に欠けることが多い。
2次元画像データのみから不連続な3d属性を抽出するという課題に注目する。
特に,人間の容姿に着目し,rgb画像から服装者の暗黙的なポーズ,形状,服装表現を学習する。
本手法は,これら3つの画像特性の非交互表現による埋め込みを学習し,2D-to-3Dエンコーダ・デコーダ構造による特徴と特性制御の有意義な再構成を可能にする。
3Dモデルは、学習した埋め込み空間の機能マップからのみ推測される。
我々の知る限りでは、この高度に制約の少ない問題に対して、ドメイン間の絡み合いを初めて達成する手法である。
我々は,仮想データを用いた3次元再構築におけるポーズ,形状,衣服の移動能力の質的,定量的な実証を行い,暗黙的な形状損失が,詳細な再構成詳細を復元するモデルの能力にどのように寄与するかを示す。
関連論文リスト
- SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - GAN2X: Non-Lambertian Inverse Rendering of Image GANs [85.76426471872855]
GAN2Xは、教師なし画像のみをトレーニングに使用する、教師なし逆レンダリングの新しい手法である。
3次元形状を主眼とする従来のShape-from-GANアプローチとは異なり、GANが生成した擬似ペアデータを利用して、非ランベルト材料特性を復元する試みは初めてである。
実験により, GAN2Xは2次元画像を3次元形状, アルベド, 特異な特性に正確に分解し, 教師なしの単視3次元顔再構成の最先端性能を実現することができた。
論文 参考訳(メタデータ) (2022-06-18T16:58:49Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。
我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。
深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文 参考訳(メタデータ) (2021-08-10T12:19:34Z) - Neural Articulated Radiance Field [90.91714894044253]
本稿では,画像から学習した明瞭な物体に対する新しい変形可能な3次元表現であるニューラルArticulated Radiance Field(NARF)を提案する。
実験の結果,提案手法は効率的であり,新しいポーズにうまく一般化できることがわかった。
論文 参考訳(メタデータ) (2021-04-07T13:23:14Z) - Fully Understanding Generic Objects: Modeling, Segmentation, and
Reconstruction [33.95791350070165]
2D画像からジェネリックオブジェクトの3D構造を推定することは、コンピュータビジョンの長年の目標です。
半教師付き学習による代替アプローチを取る。
つまり、ジェネリックオブジェクトの2Dイメージでは、カテゴリ、形状、およびアルベドの潜在的な表現に分解します。
完全な形状とアルベドモデリングにより、モデリングとモデルフィッティングの両方で実際の2Dイメージを活用できることを示しています。
論文 参考訳(メタデータ) (2021-04-02T02:39:29Z) - Cycle-Consistent Generative Rendering for 2D-3D Modality Translation [21.962725416347855]
我々は、3Dオブジェクトのリアルなレンダリングを生成し、画像からリアルな3D形状を推測するモジュールを学習する。
生成ドメイン翻訳の手法を利用することで、弱い監視しか必要としない学習アルゴリズムを不適切なデータで定義することができる。
得られたモデルは、2D画像から3D形状、ポーズ、テクスチャ推論を行うことができるが、新しいテクスチャ化された3D形状やレンダリングを生成することもできる。
論文 参考訳(メタデータ) (2020-11-16T15:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。