論文の概要: FashionEngine: Interactive 3D Human Generation and Editing via Multimodal Controls
- arxiv url: http://arxiv.org/abs/2404.01655v3
- Date: Mon, 20 May 2024 17:25:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 22:41:02.001804
- Title: FashionEngine: Interactive 3D Human Generation and Editing via Multimodal Controls
- Title(参考訳): FashionEngine:マルチモーダル制御によるインタラクティブな3Dヒューマンジェネレーションと編集
- Authors: Tao Hu, Fangzhou Hong, Zhaoxi Chen, Ziwei Liu,
- Abstract要約: FashionEngineは、自然言語、視覚認識、手描きスケッチなどのユーザフレンドリーなマルチモーダルコントロールを通じて、3Dデジタル人間を作成する。
事前学習された3次元人体拡散モデルは、2次元画像トレーニングデータからセマンティックUV潜在空間内の3次元人間をモデル化する。
大規模な実験は、条件生成/編集タスクに対するFashionEngineの最先端のパフォーマンスを検証する。
- 参考スコア(独自算出の注目度): 42.90088523156523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FashionEngine, an interactive 3D human generation and editing system that creates 3D digital humans via user-friendly multimodal controls such as natural languages, visual perceptions, and hand-drawing sketches. FashionEngine automates the 3D human production with three key components: 1) A pre-trained 3D human diffusion model that learns to model 3D humans in a semantic UV latent space from 2D image training data, which provides strong priors for diverse generation and editing tasks. 2) Multimodality-UV Space encoding the texture appearance, shape topology, and textual semantics of human clothing in a canonical UV-aligned space, which faithfully aligns the user multimodal inputs with the implicit UV latent space for controllable 3D human editing. The multimodality-UV space is shared across different user inputs, such as texts, images, and sketches, which enables various joint multimodal editing tasks. 3) Multimodality-UV Aligned Sampler learns to sample high-quality and diverse 3D humans from the diffusion prior. Extensive experiments validate FashionEngine's state-of-the-art performance for conditional generation/editing tasks. In addition, we present an interactive user interface for our FashionEngine that enables both conditional and unconditional generation tasks, and editing tasks including pose/view/shape control, text-, image-, and sketch-driven 3D human editing and 3D virtual try-on, in a unified framework. Our project page is at: https://taohuumd.github.io/projects/FashionEngine.
- Abstract(参考訳): 本稿では,自然言語や視覚認識,手描きスケッチなどのユーザフレンドリーなマルチモーダルコントロールを通じて,対話型3次元人文生成編集システムであるFashionEngineを紹介する。
FashionEngineは、3つの重要なコンポーネントで3Dヒューマンプロダクションを自動化する。
1)2次元画像訓練データから意味的UV潜伏空間における3次元人間のモデリングを学習する事前学習された3次元人体拡散モデル。
2) マルチモーダル入力を暗黙のUV潜在空間に忠実に整合させ, 制御可能な3次元編集を実現する。
マルチモーダルUV空間は、テキスト、画像、スケッチなどの異なるユーザ入力間で共有され、様々な共同マルチモーダル編集タスクを可能にする。
3) マルチモダリティ-UVアラインド・サンプラーは,従来の拡散から高品質で多様な3D人間を採取することを学ぶ。
大規模な実験は、条件生成/編集タスクに対するFashionEngineの最先端のパフォーマンスを検証する。
さらに,FashionEngine用の対話型ユーザインタフェースを提案する。これは条件付きおよび非条件生成タスクと,ポーズ/ビュー/シェープ制御,テキスト,画像,スケッチ駆動3D編集,仮想トライオンなどの編集タスクを統合されたフレームワークで実現する。
私たちのプロジェクトページは以下の通りです。
関連論文リスト
- HumanCoser: Layered 3D Human Generation via Semantic-Aware Diffusion Model [43.66218796152962]
本稿では,テキストプロンプトから物理的に階層化された3D人間を生成することを目的とする。
本稿では,物理的に分離された拡散モデルに基づく,新しい階層的な人間の表現法を提案する。
そこで本研究では,SMPLによる暗黙的フィールドネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:00:11Z) - MUSES: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration [29.657854912416038]
ユーザクエリから3次元制御可能な画像生成のための汎用AIシステムであるMUSESを導入する。
このマルチモーダルエージェントパイプラインは、人間のプロのコラボレーションを模倣することにより、3D制御可能なオブジェクトによる画像の効果的かつ自動生成を容易にする。
我々はT2I-3DisBench(3D画像シーン)の新しいベンチマークを構築し、50の詳細なプロンプトを持つ多様な3D画像シーンを記述した。
論文 参考訳(メタデータ) (2024-08-20T07:37:23Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - SemUV: Deep Learning based semantic manipulation over UV texture map of virtual human heads [2.3523009382090323]
本稿では,セムUVについて紹介する。セムUVは,FFHQ-UVデータセットを用いて,UVテクスチャ空間内でのセマンティックな操作を行う。
年齢、性別、顔の毛髪などの意味的特徴を効果的に修正しながら、アイデンティティを保存できる優れた能力を示す。
論文 参考訳(メタデータ) (2024-06-28T20:58:59Z) - En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D
Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。
従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文 参考訳(メタデータ) (2024-01-02T12:06:31Z) - Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。
近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。
予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。
我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文 参考訳(メタデータ) (2023-09-15T16:34:51Z) - Efficient 3D Articulated Human Generation with Layered Surface Volumes [131.3802971483426]
我々は,デジタル人間のための新しい3次元オブジェクト表現として,層状表面体積(LSV)を導入する。
LSVは、従来のテンプレートの周囲の複数のテクスチャ層を使用して人体を表現する。
2Dジェネレータは個々のレイヤのRGBAテクスチャを合成することを学ぶ。
論文 参考訳(メタデータ) (2023-07-11T17:50:02Z) - GET3D: A Generative Model of High Quality 3D Textured Shapes Learned
from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。
GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T17:16:19Z) - Cross-Modal 3D Shape Generation and Manipulation [62.50628361920725]
本稿では,2次元のモダリティと暗黙の3次元表現を共用した多モード生成モデルを提案する。
グレースケールラインスケッチとレンダリングカラー画像の2つの代表的な2次元モーダル性について,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2022-07-24T19:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。