論文の概要: M3D-VTON: A Monocular-to-3D Virtual Try-On Network
- arxiv url: http://arxiv.org/abs/2108.05126v1
- Date: Wed, 11 Aug 2021 10:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:28:53.619123
- Title: M3D-VTON: A Monocular-to-3D Virtual Try-On Network
- Title(参考訳): M3D-VTON:単分子対3D仮想トライオンネットワーク
- Authors: Fuwei Zhao, Zhenyu Xie, Michael Kampffmeyer, Haoye Dong, Songfang Han,
Tianxiang Zheng, Tao Zhang, Xiaodan Liang
- Abstract要約: 既存の3D仮想試行法は主に注釈付き3D人体形状と衣服テンプレートに依存している。
本稿では,2次元と3次元の両方のアプローチの利点を生かした,モノクロから3次元仮想トライオンネットワーク(M3D-VTON)を提案する。
- 参考スコア(独自算出の注目度): 62.77413639627565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual 3D try-on can provide an intuitive and realistic view for online
shopping and has a huge potential commercial value. However, existing 3D
virtual try-on methods mainly rely on annotated 3D human shapes and garment
templates, which hinders their applications in practical scenarios. 2D virtual
try-on approaches provide a faster alternative to manipulate clothed humans,
but lack the rich and realistic 3D representation. In this paper, we propose a
novel Monocular-to-3D Virtual Try-On Network (M3D-VTON) that builds on the
merits of both 2D and 3D approaches. By integrating 2D information efficiently
and learning a mapping that lifts the 2D representation to 3D, we make the
first attempt to reconstruct a 3D try-on mesh only taking the target clothing
and a person image as inputs. The proposed M3D-VTON includes three modules: 1)
The Monocular Prediction Module (MPM) that estimates an initial full-body depth
map and accomplishes 2D clothes-person alignment through a novel two-stage
warping procedure; 2) The Depth Refinement Module (DRM) that refines the
initial body depth to produce more detailed pleat and face characteristics; 3)
The Texture Fusion Module (TFM) that fuses the warped clothing with the
non-target body part to refine the results. We also construct a high-quality
synthesized Monocular-to-3D virtual try-on dataset, in which each person image
is associated with a front and a back depth map. Extensive experiments
demonstrate that the proposed M3D-VTON can manipulate and reconstruct the 3D
human body wearing the given clothing with compelling details and is more
efficient than other 3D approaches.
- Abstract(参考訳): 仮想3dトライオンは、オンラインショッピングの直感的かつ現実的なビューを提供し、大きな商業価値を秘めている。
しかし、既存の3D仮想試行法は主に注釈付き3D人体形状と衣服テンプレートに依存しており、現実的なシナリオでの応用を妨げる。
2d仮想トライオンアプローチは、衣服を操作できるより高速な代替手段を提供するが、リッチで現実的な3d表現は欠如している。
本稿では,2次元と3次元の両方のアプローチの利点を生かした,モノクロから3次元仮想トライオンネットワーク(M3D-VTON)を提案する。
2D情報を効率よく統合し、2D表現を3Dに上げるマッピングを学習することにより、ターゲットの服と人画像のみを入力とする3Dトライオンメッシュを再構築する最初の試みを行う。
提案したM3D-VTONは3つのモジュールを含む: 1) 初期全体深度マップを推定し、新しい2段階のワープ手順により2次元の衣服のアライメントを達成するモノクラー予測モジュール(MPM)、2) 初期体深度を洗練してより詳細なプリートと顔の特徴を生み出すディープスリファインメントモジュール(DRM)、3) 歪んだ衣服を非ターゲットのボディ部分と融合させるテクスチュアフュージョンモジュール(TFM)。
また、高品質な合成モノクロから3D仮想試行データセットを構築し、各人物画像が前後の深度マップに関連付けられている。
広汎な実験により、提案したM3D-VTONは、所定の衣服を身に着けた3次元の人体を操作・再構築できることを示した。
関連論文リスト
- Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - TANDEM3D: Active Tactile Exploration for 3D Object Recognition [16.548376556543015]
触覚信号を用いた3次元物体認識のための協調学習フレームワークであるTANDEM3Dを提案する。
TANDEM3Dは、PointNet++を使って接触位置と正規値から3Dオブジェクト表現を構築する新しいエンコーダに基づいている。
本手法はシミュレーションで完全に訓練され,実世界の実験で検証される。
論文 参考訳(メタデータ) (2022-09-19T05:54:26Z) - Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer? [111.11502241431286]
視覚変換器(ViT)は2次元画像理解タスクの解決に有効であることが証明されている。
2Dおよび3Dタスク用のViTは、これまでほとんど転送できない、非常に異なるアーキテクチャ設計を採用してきた。
本稿では,標準的な2D ViTアーキテクチャを用いて,3次元視覚世界を理解するという魅力的な約束を示す。
論文 参考訳(メタデータ) (2022-09-15T03:34:58Z) - Learning 3D Object Shape and Layout without 3D Supervision [26.575177430506667]
3Dシーンはオブジェクトのセットで構成され、それぞれが空間における位置を与える形状とレイアウトを持つ。
本研究では,物体の3次元形状とレイアウトを,地平面形状やレイアウト情報なしで予測する手法を提案する。
我々のアプローチは、より小さく、より多様なデータセットで訓練された教師ありアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-06-14T17:49:44Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。