Fugu-MT 論文翻訳(概要): FashionEngine: Interactive Generation and Editing of 3D Clothed Humans

論文の概要: FashionEngine: Interactive Generation and Editing of 3D Clothed Humans

arxiv url: http://arxiv.org/abs/2404.01655v1
Date: Tue, 2 Apr 2024 05:56:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 17:48:15.848671
Title: FashionEngine: Interactive Generation and Editing of 3D Clothed Humans
Title（参考訳）: FashionEngine: 3D衣服の対話的生成と編集
Authors: Tao Hu, Fangzhou Hong, Zhaoxi Chen, Ziwei Liu,
Abstract要約: FashionEngineを使えば、3Dのデジタル人間を、人間が世界と対話する方法に合わせてデザインできる。事前学習された3次元人体拡散モデルは、2次元画像トレーニングデータからセマンティックUV潜在空間内の3次元人間をモデル化する。マルチモーダルなUVアラインド・サンプラーは、マルチモーダルなユーザ入力に先立つ拡散から高品質で多様な3D人間をサンプリングすることを学ぶ。
参考スコア（独自算出の注目度）: 42.90088523156523
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present FashionEngine, an interactive 3D human generation and editing system that allows us to design 3D digital humans in a way that aligns with how humans interact with the world, such as natural languages, visual perceptions, and hand-drawing. FashionEngine automates the 3D human production with three key components: 1) A pre-trained 3D human diffusion model that learns to model 3D humans in a semantic UV latent space from 2D image training data, which provides strong priors for diverse generation and editing tasks. 2) Multimodality-UV Space encoding the texture appearance, shape topology, and textual semantics of human clothing in a canonical UV-aligned space, which faithfully aligns the user multimodal inputs with the implicit UV latent space for controllable 3D human editing. The multimodality-UV space is shared across different user inputs, such as texts, images, and sketches, which enables various joint multimodal editing tasks. 3) Multimodality-UV Aligned Sampler learns to sample high-quality and diverse 3D humans from the diffusion prior for multimodal user inputs. Extensive experiments validate FashionEngine's state-of-the-art performance for conditional generation/editing tasks. In addition, we present an interactive user interface for our FashionEngine that enables both conditional and unconditional generation tasks, and editing tasks including pose/view/shape control, text-, image-, and sketch-driven 3D human editing and 3D virtual try-on, in a unified framework. Our project page is at: https://taohuumd.github.io/projects/FashionEngine.
Abstract（参考訳）: FashionEngineはインタラクティブな3Dヒューマン生成と編集システムで、自然言語、視覚知覚、手描きなど、人間が世界とどのように相互作用するかに合わせて3Dデジタル人間を設計できる。 FashionEngineは、3つの重要なコンポーネントで3Dヒューマンプロダクションを自動化する。 1)2次元画像訓練データから意味的UV潜伏空間における3次元人間のモデリングを学習する事前学習された3次元人体拡散モデル。 2) マルチモーダル入力を暗黙のUV潜在空間に忠実に整合させ, 制御可能な3次元編集を実現する。マルチモーダルUV空間は、テキスト、画像、スケッチなどの異なるユーザ入力間で共有され、様々な共同マルチモーダル編集タスクを可能にする。 3)マルチモーダル・UVアラインド・サンプラーは,マルチモーダルユーザ入力に先立つ拡散から,高品質で多様な3D人間をサンプリングすることを学ぶ。大規模な実験は、条件生成/編集タスクに対するFashionEngineの最先端のパフォーマンスを検証する。さらに,FashionEngine用の対話型ユーザインタフェースを提案する。これは条件付きおよび非条件生成タスクと,ポーズ/ビュー/シェープ制御,テキスト,画像,スケッチ駆動3D編集,仮想トライオンなどの編集タスクを統合されたフレームワークで実現する。私たちのプロジェクトページは以下の通りです。

関連論文リスト

UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文参考訳（メタデータ） (2025-12-03T16:03:18Z)
ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding [16.95099884066268]
ShapeLLM-Omniは、任意のシーケンスで3Dのアセットとテキストを理解し、生成できる3Dの大規模言語モデルである。 3D対応離散トークンに基づいて、3D-Alpacaという大規模連続トレーニングデータセットを革新的に構築する。我々の研究は、基本的な3D機能を備えたマルチモーダルモデルを効果的に拡張する試みであり、将来の3DネイティブAIの研究に寄与する。
論文参考訳（メタデータ） (2025-06-02T16:40:50Z)
HumanCoser: Layered 3D Human Generation via Semantic-Aware Diffusion Model [43.66218796152962]
本稿では,テキストプロンプトから物理的に階層化された3D人間を生成することを目的とする。本稿では,物理的に分離された拡散モデルに基づく,新しい階層的な人間の表現法を提案する。そこで本研究では,SMPLによる暗黙的フィールドネットワークを提案する。
論文参考訳（メタデータ） (2024-08-21T06:00:11Z)
MUSES: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration [29.657854912416038]
ユーザクエリから3次元制御可能な画像生成のための汎用AIシステムであるMUSESを導入する。このマルチモーダルエージェントパイプラインは、人間のプロのコラボレーションを模倣することにより、3D制御可能なオブジェクトによる画像の効果的かつ自動生成を容易にする。我々はT2I-3DisBench(3D画像シーン)の新しいベンチマークを構築し、50の詳細なプロンプトを持つ多様な3D画像シーンを記述した。
論文参考訳（メタデータ） (2024-08-20T07:37:23Z)
Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。 Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文参考訳（メタデータ） (2024-07-09T13:24:42Z)
SemUV: Deep Learning based semantic manipulation over UV texture map of virtual human heads [2.3523009382090323]
本稿では,セムUVについて紹介する。セムUVは,FFHQ-UVデータセットを用いて,UVテクスチャ空間内でのセマンティックな操作を行う。年齢、性別、顔の毛髪などの意味的特徴を効果的に修正しながら、アイデンティティを保存できる優れた能力を示す。
論文参考訳（メタデータ） (2024-06-28T20:58:59Z)
En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文参考訳（メタデータ） (2024-01-02T12:06:31Z)
Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文参考訳（メタデータ） (2023-09-15T16:34:51Z)
Efficient 3D Articulated Human Generation with Layered Surface Volumes [131.3802971483426]
我々は,デジタル人間のための新しい3次元オブジェクト表現として,層状表面体積(LSV)を導入する。 LSVは、従来のテンプレートの周囲の複数のテクスチャ層を使用して人体を表現する。 2Dジェネレータは個々のレイヤのRGBAテクスチャを合成することを学ぶ。
論文参考訳（メタデータ） (2023-07-11T17:50:02Z)
GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。 GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文参考訳（メタデータ） (2022-09-22T17:16:19Z)
Cross-Modal 3D Shape Generation and Manipulation [62.50628361920725]
本稿では,2次元のモダリティと暗黙の3次元表現を共用した多モード生成モデルを提案する。グレースケールラインスケッチとレンダリングカラー画像の2つの代表的な2次元モーダル性について,本フレームワークの評価を行った。
論文参考訳（メタデータ） (2022-07-24T19:22:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。