論文の概要: 3D Magic Mirror: Clothing Reconstruction from a Single Image via a
Causal Perspective
- arxiv url: http://arxiv.org/abs/2204.13096v1
- Date: Wed, 27 Apr 2022 17:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 14:13:28.047601
- Title: 3D Magic Mirror: Clothing Reconstruction from a Single Image via a
Causal Perspective
- Title(参考訳): 3Dマジックミラー : 因果的視点による1枚の画像からの再現
- Authors: Zhedong Zheng and Jiayin Zhu and Wei Ji and Yi Yang and Tat-Seng Chua
- Abstract要約: 本研究は, 自己監督型3D衣料の再構築手法について検討することを目的とする。
1枚の2D画像から人間の衣服の形状やテクスチャを復元する。
- 参考スコア(独自算出の注目度): 96.65476492200648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research aims to study a self-supervised 3D clothing reconstruction
method, which recovers the geometry shape, and texture of human clothing from a
single 2D image. Compared with existing methods, we observe that three primary
challenges remain: (1) the conventional template-based methods are limited to
modeling non-rigid clothing objects, e.g., handbags and dresses, which are
common in fashion images; (2) 3D ground-truth meshes of clothing are usually
inaccessible due to annotation difficulties and time costs. (3) It remains
challenging to simultaneously optimize four reconstruction factors, i.e.,
camera viewpoint, shape, texture, and illumination. The inherent ambiguity
compromises the model training, such as the dilemma between a large shape with
a remote camera or a small shape with a close camera.
In an attempt to address the above limitations, we propose a causality-aware
self-supervised learning method to adaptively reconstruct 3D non-rigid objects
from 2D images without 3D annotations. In particular, to solve the inherent
ambiguity among four implicit variables, i.e., camera position, shape, texture,
and illumination, we study existing works and introduce an explainable
structural causal map (SCM) to build our model. The proposed model structure
follows the spirit of the causal map, which explicitly considers the prior
template in the camera estimation and shape prediction. When optimization, the
causality intervention tool, i.e., two expectation-maximization loops, is
deeply embedded in our algorithm to (1) disentangle four encoders and (2) help
the prior template update. Extensive experiments on two 2D fashion benchmarks,
e.g., ATR, and Market-HQ, show that the proposed method could yield
high-fidelity 3D reconstruction. Furthermore, we also verify the scalability of
the proposed method on a fine-grained bird dataset, i.e., CUB.
- Abstract(参考訳): 本研究では,1枚の2次元画像から人間の衣服の形状やテクスチャを復元する,自己監督型3D衣料再構築法について検討する。
既存の手法と比較して,(1)従来のテンプレートベースの手法は,ファッションイメージで一般的であるハンドバッグやドレスなどの非剛性衣料品のモデル化に制限されており,(2)アノテーションの難易度や時間的コストから3次元の地中メッシュは一般にアクセスできない,という3つの課題が残っている。
(3) カメラ視点, 形状, テクスチャ, 照明の4因子を同時に最適化することは依然として困難である。
本質的に曖昧さは、リモートカメラで大きな形状のジレンマや、近接カメラで小さな形状のジレンマなど、モデルのトレーニングを損なう。
上記の制約に対処するために,3次元アノテーションを使わずに2次元画像から3次元非剛体オブジェクトを適応的に再構成する因果認識型自己教師学習法を提案する。
特に、カメラの位置、形状、テクスチャ、照明の4つの暗黙的変数の固有の曖昧さを解決するために、既存の作品を研究し、モデルを構築するための説明可能な構造因果写像(SCM)を導入する。
提案するモデル構造は,カメラ推定および形状予測における先行テンプレートを明示的に考慮した因果写像の精神に従う。
最適化では,2つの期待最大化ループ,すなわち因果介入ツールをアルゴリズムに深く組み込んで,(1)4つのエンコーダをアンタングルし,(2)以前のテンプレート更新を支援する。
ATRとMarket-HQの2つの2Dファッションベンチマークの大規模な実験は、提案手法が高忠実度3D再構築をもたらす可能性を示唆している。
さらに,鳥の詳細なデータセット,すなわちCUBを用いて提案手法のスケーラビリティを検証する。
関連論文リスト
- Diffusion Models are Geometry Critics: Single Image 3D Editing Using Pre-Trained Diffusion Priors [24.478875248825563]
単一画像の3次元操作を可能にする新しい画像編集手法を提案する。
本手法は,テキスト・イメージ・ペアの広い範囲で訓練された強力な画像拡散モデルを直接活用する。
提案手法では,高画質な3D画像編集が可能で,視点変換が大きく,外観や形状の整合性も高い。
論文 参考訳(メタデータ) (2024-03-18T06:18:59Z) - Uncertainty-aware 3D Object-Level Mapping with Deep Shape Priors [15.34487368683311]
未知のオブジェクトに対して高品質なオブジェクトレベルマップを再構築するフレームワークを提案する。
提案手法では,複数のRGB-D画像を入力として,高密度な3次元形状と検出対象に対する9-DoFポーズを出力する。
2つの新たな損失関数を通して形状を伝播し不確実性を生じさせる確率的定式化を導出する。
論文 参考訳(メタデータ) (2023-09-17T00:48:19Z) - LIST: Learning Implicitly from Spatial Transformers for Single-View 3D
Reconstruction [5.107705550575662]
Listは、局所的およびグローバルな画像特徴を活用して、単一の画像から3Dオブジェクトの幾何学的および位相的構造を再構築する、新しいニューラルネットワークである。
合成画像と実世界の画像から3Dオブジェクトを再構成する際のモデルの有用性を示す。
論文 参考訳(メタデータ) (2023-07-23T01:01:27Z) - One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape
Optimization [30.951405623906258]
単一画像の3D再構成は、我々の自然界に関する広範な知識を必要とする重要な課題であるが、難しい課題である。
本研究では,任意の物体の1つの画像を入力として取り込み,360度3次元テクスチャメッシュを1回のフィードフォワードパスで生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-29T13:28:16Z) - Towards Hard-pose Virtual Try-on via 3D-aware Global Correspondence
Learning [70.75369367311897]
3D対応のグローバルな対応は、グローバルな意味的相関、局所的な変形、および3D人体の幾何学的先行を共同でエンコードする信頼性のあるフローである。
対向ジェネレータは、3D認識フローによって歪んだ衣服と、対象者の画像とを入力として、フォトリアリスティックな試着結果を合成する。
論文 参考訳(メタデータ) (2022-11-25T12:16:21Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Pop-Out Motion: 3D-Aware Image Deformation via Learning the Shape
Laplacian [58.704089101826774]
形状分類と変形型に最小限の制約を課した3次元画像変形法を提案する。
点雲として表される3次元再構成の基底体積のラプラシアン形状を予測するために,教師付き学習に基づくアプローチを採用する。
実験では,2次元キャラクタと人間の衣料画像の変形実験を行った。
論文 参考訳(メタデータ) (2022-03-29T04:57:18Z) - Do 2D GANs Know 3D Shape? Unsupervised 3D shape reconstruction from 2D
Image GANs [156.1209884183522]
GANのような最先端の2D生成モデルは、自然像多様体のモデリングにおいて前例のない品質を示している。
本稿では,RGB画像のみをトレーニングした市販の2D GANから3次元幾何学的手がかりを直接マイニングする試みについて紹介する。
論文 参考訳(メタデータ) (2020-11-02T09:38:43Z) - Self-supervised Single-view 3D Reconstruction via Semantic Consistency [142.71430568330172]
対象物の形状, テクスチャ, カメラポーズを予測できる, 自己監督型, 単視点3D再構成モデルを学習する。
提案手法では,手動で注釈付けしたキーポイント,オブジェクトのマルチビューイメージ,あるいは事前の3Dテンプレートなど,3Dの監督を必要としない。
論文 参考訳(メタデータ) (2020-03-13T20:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。