論文の概要: Text-guided 3D Human Generation from 2D Collections
- arxiv url: http://arxiv.org/abs/2305.14312v2
- Date: Fri, 20 Oct 2023 17:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 05:56:30.216440
- Title: Text-guided 3D Human Generation from 2D Collections
- Title(参考訳): 2dコレクションからのテキスト誘導型3d人間生成
- Authors: Tsu-Jui Fu and Wenhan Xiong and Yixin Nie and Jingyu Liu and Barlas
O\u{g}uz and William Yang Wang
- Abstract要約: 本稿では,テクスト誘導型3Dヒューマンジェネレーション(texttT3H)について紹介する。
CCHは、抽出されたファッションセマンティクスを用いたヒューズ合成ヒトのレンダリングに、クロスモーダルアテンションを採用する。
我々はDeepFashionとSHHQで、上着と下着の形状、生地、色を多彩なファッション特性で評価する。
- 参考スコア(独自算出の注目度): 69.04031635550294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human modeling has been widely used for engaging interaction in gaming,
film, and animation. The customization of these characters is crucial for
creativity and scalability, which highlights the importance of controllability.
In this work, we introduce Text-guided 3D Human Generation (\texttt{T3H}),
where a model is to generate a 3D human, guided by the fashion description.
There are two goals: 1) the 3D human should render articulately, and 2) its
outfit is controlled by the given text. To address this \texttt{T3H} task, we
propose Compositional Cross-modal Human (CCH). CCH adopts cross-modal attention
to fuse compositional human rendering with the extracted fashion semantics.
Each human body part perceives relevant textual guidance as its visual
patterns. We incorporate the human prior and semantic discrimination to enhance
3D geometry transformation and fine-grained consistency, enabling it to learn
from 2D collections for data efficiency. We conduct evaluations on DeepFashion
and SHHQ with diverse fashion attributes covering the shape, fabric, and color
of upper and lower clothing. Extensive experiments demonstrate that CCH
achieves superior results for \texttt{T3H} with high efficiency.
- Abstract(参考訳): 3d人間のモデリングはゲーム、映画、アニメーションの相互作用に広く使われている。
これらの文字のカスタマイズはクリエイティビティとスケーラビリティにとって不可欠であり、制御性の重要性を強調している。
本稿では,ファッション記述に導かれる3次元人間を生成するためのモデルとして,テキスト誘導3次元人間生成(\texttt{t3h})を導入する。
2つの目標があります
1) 3次元人間は、明瞭に描画し、
2) その衣服は所定のテキストによって制御される。
この課題に対処するため,我々はCCH(Compositional Cross-modal Human)を提案する。
CCHは、抽出されたファッションセマンティクスを用いたヒューズ合成ヒトのレンダリングに、クロスモーダルアテンションを採用する。
人体の各部位は、視覚パターンとして関連するテキストガイダンスを知覚する。
我々は,3次元形状変換ときめ細かな一貫性を強化するために,人間の先行的および意味的識別を取り入れ,データ効率のために2次元コレクションから学ぶことができる。
本研究は,上着と下着の形状,布地,色彩を包含する多様なファッション特性を有する深層ファシオンとshhqについて評価を行う。
大規模な実験により、CCH は高効率で \texttt{T3H} に対して優れた結果が得られることを示した。
関連論文リスト
- DAGSM: Disentangled Avatar Generation with GS-enhanced Mesh [102.84518904896737]
DAGSMは、与えられたテキストプロンプトから歪んだ人体と衣服を生成する新しいパイプラインである。
まず着ていない体を作り、次に体に基づいて個々の布を生成します。
実験では、DAGSMは高品質なアンタングルアバターを生成し、衣服の交換とリアルなアニメーションをサポートし、視覚的品質においてベースラインを上回っている。
論文 参考訳(メタデータ) (2024-11-20T07:00:48Z) - FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - 2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation? [5.408549711581793]
本研究では,2次元もしくは3次元の関節座標を訓練データとして用いることが,音声から身近な深層生成モデルの性能に及ぼす影響について検討した。
生成した2Dポーズシーケンスを3Dに変換するためのリフトモデルを用いて,2Dで生成したジェスチャと3Dで生成したジェスチャを直接3Dスタックで生成し,次に3Dに変換する方法を評価する。
論文 参考訳(メタデータ) (2024-09-16T15:06:12Z) - Investigating the impact of 2D gesture representation on co-speech gesture generation [5.408549711581793]
訓練データ(2次元または3次元の関節座標)の寸法がマルチモーダル音声合成モデルの性能に及ぼす影響を評価する。
論文 参考訳(メタデータ) (2024-06-21T12:59:20Z) - HumanLiff: Layer-wise 3D Human Generation with Diffusion Model [55.891036415316876]
既存の3D生成モデルは、主に1回のパスで、検出不能な3Dモデルとして、着物付き3D人間を生成する。
拡散過程を統一した第1層の3次元人間生成モデルであるHumanLiffを提案する。
論文 参考訳(メタデータ) (2023-08-18T17:59:04Z) - TeCH: Text-guided Reconstruction of Lifelike Clothed Humans [35.68114652041377]
既存の方法は、ぼやけたテクスチャで非常に滑らかな裏面を生成することが多い。
基礎モデルの力に触発されて、TeCHは記述的テキストプロンプトを利用して3D人間を再構築する。
そこで本研究では,DMTetをベースとした3次元ハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2023-08-16T17:59:13Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - 3D-Aware Semantic-Guided Generative Model for Human Synthesis [67.86621343494998]
本稿では,人間の画像合成のための3D-SGAN(Semantic-Guided Generative Model)を提案する。
DeepFashionデータセットに関する我々の実験は、3D-SGANが最新のベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-02T17:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。