論文の概要: FashionEngine: Interactive Generation and Editing of 3D Clothed Humans
- arxiv url: http://arxiv.org/abs/2404.01655v1
- Date: Tue, 2 Apr 2024 05:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 17:48:15.848671
- Title: FashionEngine: Interactive Generation and Editing of 3D Clothed Humans
- Title(参考訳): FashionEngine: 3D衣服の対話的生成と編集
- Authors: Tao Hu, Fangzhou Hong, Zhaoxi Chen, Ziwei Liu,
- Abstract要約: FashionEngineを使えば、3Dのデジタル人間を、人間が世界と対話する方法に合わせてデザインできる。
事前学習された3次元人体拡散モデルは、2次元画像トレーニングデータからセマンティックUV潜在空間内の3次元人間をモデル化する。
マルチモーダルなUVアラインド・サンプラーは、マルチモーダルなユーザ入力に先立つ拡散から高品質で多様な3D人間をサンプリングすることを学ぶ。
- 参考スコア(独自算出の注目度): 42.90088523156523
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present FashionEngine, an interactive 3D human generation and editing system that allows us to design 3D digital humans in a way that aligns with how humans interact with the world, such as natural languages, visual perceptions, and hand-drawing. FashionEngine automates the 3D human production with three key components: 1) A pre-trained 3D human diffusion model that learns to model 3D humans in a semantic UV latent space from 2D image training data, which provides strong priors for diverse generation and editing tasks. 2) Multimodality-UV Space encoding the texture appearance, shape topology, and textual semantics of human clothing in a canonical UV-aligned space, which faithfully aligns the user multimodal inputs with the implicit UV latent space for controllable 3D human editing. The multimodality-UV space is shared across different user inputs, such as texts, images, and sketches, which enables various joint multimodal editing tasks. 3) Multimodality-UV Aligned Sampler learns to sample high-quality and diverse 3D humans from the diffusion prior for multimodal user inputs. Extensive experiments validate FashionEngine's state-of-the-art performance for conditional generation/editing tasks. In addition, we present an interactive user interface for our FashionEngine that enables both conditional and unconditional generation tasks, and editing tasks including pose/view/shape control, text-, image-, and sketch-driven 3D human editing and 3D virtual try-on, in a unified framework. Our project page is at: https://taohuumd.github.io/projects/FashionEngine.
- Abstract(参考訳): FashionEngineはインタラクティブな3Dヒューマン生成と編集システムで、自然言語、視覚知覚、手描きなど、人間が世界とどのように相互作用するかに合わせて3Dデジタル人間を設計できる。
FashionEngineは、3つの重要なコンポーネントで3Dヒューマンプロダクションを自動化する。
1)2次元画像訓練データから意味的UV潜伏空間における3次元人間のモデリングを学習する事前学習された3次元人体拡散モデル。
2) マルチモーダル入力を暗黙のUV潜在空間に忠実に整合させ, 制御可能な3次元編集を実現する。
マルチモーダルUV空間は、テキスト、画像、スケッチなどの異なるユーザ入力間で共有され、様々な共同マルチモーダル編集タスクを可能にする。
3)マルチモーダル・UVアラインド・サンプラーは,マルチモーダルユーザ入力に先立つ拡散から,高品質で多様な3D人間をサンプリングすることを学ぶ。
大規模な実験は、条件生成/編集タスクに対するFashionEngineの最先端のパフォーマンスを検証する。
さらに,FashionEngine用の対話型ユーザインタフェースを提案する。これは条件付きおよび非条件生成タスクと,ポーズ/ビュー/シェープ制御,テキスト,画像,スケッチ駆動3D編集,仮想トライオンなどの編集タスクを統合されたフレームワークで実現する。
私たちのプロジェクトページは以下の通りです。
関連論文リスト
- UV Gaussians: Joint Learning of Mesh Deformation and Gaussian Textures for Human Avatar Modeling [71.87807614875497]
メッシュ変形と2次元UV空間のガウステクスチャを共同学習することで3次元人体をモデル化するUVガウスアンを提案する。
我々は,多視点画像,走査モデル,パラメトリックモデル登録,およびそれに対応するテクスチャマップを含む,人間の動作の新たなデータセットを収集し,処理する。
論文 参考訳(メタデータ) (2024-03-18T09:03:56Z) - En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D
Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。
従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文 参考訳(メタデータ) (2024-01-02T12:06:31Z) - GenZI: Zero-Shot 3D Human-Scene Interaction Generation [39.9039943099911]
我々は3次元人間とシーンの相互作用を生成するための最初のゼロショットアプローチであるGenZIを提案する。
GenZIの鍵となるのは、大きな視覚言語モデル(VLM)による相互作用先行の蒸留です。
既存の学習ベースのアプローチとは対照的に、GenZIはキャプチャされた3Dインタラクションデータに対する従来のニーズを回避している。
論文 参考訳(メタデータ) (2023-11-29T15:40:11Z) - HumanLiff: Layer-wise 3D Human Generation with Diffusion Model [55.891036415316876]
既存の3D生成モデルは、主に1回のパスで、検出不能な3Dモデルとして、着物付き3D人間を生成する。
拡散過程を統一した第1層の3次元人間生成モデルであるHumanLiffを提案する。
論文 参考訳(メタデータ) (2023-08-18T17:59:04Z) - Text-guided 3D Human Generation from 2D Collections [69.04031635550294]
本稿では,テクスト誘導型3Dヒューマンジェネレーション(texttT3H)について紹介する。
CCHは、抽出されたファッションセマンティクスを用いたヒューズ合成ヒトのレンダリングに、クロスモーダルアテンションを採用する。
我々はDeepFashionとSHHQで、上着と下着の形状、生地、色を多彩なファッション特性で評価する。
論文 参考訳(メタデータ) (2023-05-23T17:50:15Z) - GET3D: A Generative Model of High Quality 3D Textured Shapes Learned
from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。
GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T17:16:19Z) - Cross-Modal 3D Shape Generation and Manipulation [62.50628361920725]
本稿では,2次元のモダリティと暗黙の3次元表現を共用した多モード生成モデルを提案する。
グレースケールラインスケッチとレンダリングカラー画像の2つの代表的な2次元モーダル性について,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2022-07-24T19:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。