論文の概要: Text-guided 3D Human Generation from 2D Collections
- arxiv url: http://arxiv.org/abs/2305.14312v2
- Date: Fri, 20 Oct 2023 17:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 05:56:30.216440
- Title: Text-guided 3D Human Generation from 2D Collections
- Title(参考訳): 2dコレクションからのテキスト誘導型3d人間生成
- Authors: Tsu-Jui Fu and Wenhan Xiong and Yixin Nie and Jingyu Liu and Barlas
O\u{g}uz and William Yang Wang
- Abstract要約: 本稿では,テクスト誘導型3Dヒューマンジェネレーション(texttT3H)について紹介する。
CCHは、抽出されたファッションセマンティクスを用いたヒューズ合成ヒトのレンダリングに、クロスモーダルアテンションを採用する。
我々はDeepFashionとSHHQで、上着と下着の形状、生地、色を多彩なファッション特性で評価する。
- 参考スコア(独自算出の注目度): 69.04031635550294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human modeling has been widely used for engaging interaction in gaming,
film, and animation. The customization of these characters is crucial for
creativity and scalability, which highlights the importance of controllability.
In this work, we introduce Text-guided 3D Human Generation (\texttt{T3H}),
where a model is to generate a 3D human, guided by the fashion description.
There are two goals: 1) the 3D human should render articulately, and 2) its
outfit is controlled by the given text. To address this \texttt{T3H} task, we
propose Compositional Cross-modal Human (CCH). CCH adopts cross-modal attention
to fuse compositional human rendering with the extracted fashion semantics.
Each human body part perceives relevant textual guidance as its visual
patterns. We incorporate the human prior and semantic discrimination to enhance
3D geometry transformation and fine-grained consistency, enabling it to learn
from 2D collections for data efficiency. We conduct evaluations on DeepFashion
and SHHQ with diverse fashion attributes covering the shape, fabric, and color
of upper and lower clothing. Extensive experiments demonstrate that CCH
achieves superior results for \texttt{T3H} with high efficiency.
- Abstract(参考訳): 3d人間のモデリングはゲーム、映画、アニメーションの相互作用に広く使われている。
これらの文字のカスタマイズはクリエイティビティとスケーラビリティにとって不可欠であり、制御性の重要性を強調している。
本稿では,ファッション記述に導かれる3次元人間を生成するためのモデルとして,テキスト誘導3次元人間生成(\texttt{t3h})を導入する。
2つの目標があります
1) 3次元人間は、明瞭に描画し、
2) その衣服は所定のテキストによって制御される。
この課題に対処するため,我々はCCH(Compositional Cross-modal Human)を提案する。
CCHは、抽出されたファッションセマンティクスを用いたヒューズ合成ヒトのレンダリングに、クロスモーダルアテンションを採用する。
人体の各部位は、視覚パターンとして関連するテキストガイダンスを知覚する。
我々は,3次元形状変換ときめ細かな一貫性を強化するために,人間の先行的および意味的識別を取り入れ,データ効率のために2次元コレクションから学ぶことができる。
本研究は,上着と下着の形状,布地,色彩を包含する多様なファッション特性を有する深層ファシオンとshhqについて評価を行う。
大規模な実験により、CCH は高効率で \texttt{T3H} に対して優れた結果が得られることを示した。
関連論文リスト
- GenZI: Zero-Shot 3D Human-Scene Interaction Generation [39.9039943099911]
我々は3次元人間とシーンの相互作用を生成するための最初のゼロショットアプローチであるGenZIを提案する。
GenZIの鍵となるのは、大きな視覚言語モデル(VLM)による相互作用先行の蒸留です。
既存の学習ベースのアプローチとは対照的に、GenZIはキャプチャされた3Dインタラクションデータに対する従来のニーズを回避している。
論文 参考訳(メタデータ) (2023-11-29T15:40:11Z) - SCULPT: Shape-Conditioned Unpaired Learning of Pose-dependent Clothed
and Textured Human Meshes [66.57091845220639]
SCULPTは,人間の布とテクスチャを用いた3次元メッシュの新規な3次元生成モデルである。
ポーズ依存型・テクスチャ型ヒューマンメッシュの非ペア学習手法を提案する。
本手法をSCULPTデータセット上で検証し,布を被った人体に対する最先端の3D生成モデルと比較した。
論文 参考訳(メタデータ) (2023-08-21T11:23:25Z) - HumanLiff: Layer-wise 3D Human Generation with Diffusion Model [55.891036415316876]
既存の3D生成モデルは、主に1回のパスで、検出不能な3Dモデルとして、着物付き3D人間を生成する。
拡散過程を統一した第1層の3次元人間生成モデルであるHumanLiffを提案する。
論文 参考訳(メタデータ) (2023-08-18T17:59:04Z) - TeCH: Text-guided Reconstruction of Lifelike Clothed Humans [35.68114652041377]
既存の方法は、ぼやけたテクスチャで非常に滑らかな裏面を生成することが多い。
基礎モデルの力に触発されて、TeCHは記述的テキストプロンプトを利用して3D人間を再構築する。
そこで本研究では,DMTetをベースとした3次元ハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2023-08-16T17:59:13Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - 3D Segmentation of Humans in Point Clouds with Synthetic Data [21.518379214837278]
本稿では,3次元人間の意味的セグメンテーション,インスタンスセグメンテーション,複数人体部分セグメンテーションの課題を提案する。
実際の3Dシーンと相互作用する合成人間のトレーニングデータを生成するためのフレームワークを提案する。
また,新しいトランスフォーマーモデルであるHuman3Dを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:21Z) - 3D-Aware Semantic-Guided Generative Model for Human Synthesis [67.86621343494998]
本稿では,人間の画像合成のための3D-SGAN(Semantic-Guided Generative Model)を提案する。
DeepFashionデータセットに関する我々の実験は、3D-SGANが最新のベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-02T17:10:53Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Detailed 2D-3D Joint Representation for Human-Object Interaction [45.71407935014447]
HOI学習のための2次元3次元共同表現学習法を提案する。
まず, 単視点の人体捕捉法を用いて, 3次元体, 顔, 手の形状を詳細に把握する。
次に,3次元オブジェクトの位置と大きさを,2次元オブジェクト空間構成と対象カテゴリーの先行点から推定する。
論文 参考訳(メタデータ) (2020-04-17T10:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。