論文の概要: DivAvatar: Diverse 3D Avatar Generation with a Single Prompt
- arxiv url: http://arxiv.org/abs/2402.17292v1
- Date: Tue, 27 Feb 2024 08:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:24:55.694570
- Title: DivAvatar: Diverse 3D Avatar Generation with a Single Prompt
- Title(参考訳): DivAvatar: 単発の3Dアバター・ジェネレーション
- Authors: Weijing Tao, Biwen Lei, Kunhao Liu, Shijian Lu, Miaomiao Cui, Xuansong
Xie, Chunyan Miao
- Abstract要約: DivAvatarは、単一のテキストプロンプトから多様なアバターを生成するフレームワークである。
生成の多様性と視覚的品質を達成するための2つの重要な設計がある。
大規模な実験により、ディヴァバターは様々な外観のアバターを生成するのに非常に多用途であることが示されている。
- 参考スコア(独自算出の注目度): 95.9978722953278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Avatar generation has recently made significant strides due to
advancements in diffusion models. However, most existing work remains
constrained by limited diversity, producing avatars with subtle differences in
appearance for a given text prompt. We design DivAvatar, a novel framework that
generates diverse avatars, empowering 3D creatives with a multitude of distinct
and richly varied 3D avatars from a single text prompt. Different from most
existing work that exploits scene-specific 3D representations such as NeRF,
DivAvatar finetunes a 3D generative model (i.e., EVA3D), allowing diverse
avatar generation from simply noise sampling in inference time. DivAvatar has
two key designs that help achieve generation diversity and visual quality. The
first is a noise sampling technique during training phase which is critical in
generating diverse appearances. The second is a semantic-aware zoom mechanism
and a novel depth loss, the former producing appearances of high textual
fidelity by separate fine-tuning of specific body parts and the latter
improving geometry quality greatly by smoothing the generated mesh in the
features space. Extensive experiments show that DivAvatar is highly versatile
in generating avatars of diverse appearances.
- Abstract(参考訳): テキストからアバタールへの生成は最近、拡散モデルの進歩によって大きな進歩を遂げている。
しかし、既存の作品の多くは限定的な多様性によって制約を受けており、与えられたテキストプロンプトの外観の微妙な違いを持つアバターが生み出されている。
多様なアバターを生成する新しいフレームワークであるDivAvatarを設計し、単一のテキストプロンプトから多種多様な多種多様な3Dアバターを3Dクリエイティブに活用する。
NeRF、DivAvatar finetunes 3D生成モデル(EVA3D)のようなシーン固有の3D表現を利用する既存の作業とは異なり、単純なノイズサンプリングから様々なアバターを生成することができる。
DivAvatarには、世代多様性と視覚的品質を達成するための2つの重要な設計がある。
第一は,様々な外観を創り出すのに不可欠な訓練段階におけるノイズサンプリング手法である。
2つめは意味認識ズーム機構と新しい奥行き損失であり、前者は特定の身体部位の微調整を分離してテキスト忠実度の高い外観を生成し、後者は特徴空間で生成されたメッシュを滑らかにすることで幾何学的品質を大幅に向上させる。
広範な実験により、ディヴァタールは多様な外観のアバターを生成するのに非常に多用途であることが示された。
関連論文リスト
- UltrAvatar: A Realistic Animatable 3D Avatar Diffusion Model with
Authenticity Guided Textures [87.44566848803994]
幾何学の忠実度を高めたUltrAvatarと呼ばれる新しい3次元アバター生成手法を提案し,光を必要とせずに物理ベースレンダリング(PBR)テクスチャの質を向上する。
提案手法の有効性とロバスト性を実証し,実験において最先端の手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2024-01-20T01:55:17Z) - AvatarStudio: High-fidelity and Animatable 3D Avatar Creation from Text [71.09533176800707]
アバターストゥディオ(AvatarStudio)は、アニマタブルな人間のアバターのために、明瞭なテクスチャ化された3Dメッシュを生成する粗大で微細な生成モデルである。
調音メッシュ表現とDensePose条件拡散モデルとの相乗効果を効果的に活用することにより、AvatarStudioは高品質なアバターを作成することができる。
論文 参考訳(メタデータ) (2023-11-29T18:59:32Z) - AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation [14.062402203105712]
AvatarBoothはテキストプロンプトや特定の画像を使って高品質な3Dアバターを生成する新しい方法である。
我々の重要な貢献は、二重微調整拡散モデルを用いた正確なアバター生成制御である。
本稿では,3次元アバター生成の粗大な監視を容易にするマルチレゾリューションレンダリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-16T14:18:51Z) - StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity
3D Avatar Generation [103.88928334431786]
高品質な3Dアバターを製作するための新しい手法を提案する。
データ生成には事前学習した画像テキスト拡散モデルとGANベースの3次元生成ネットワークを用いて訓練を行う。
提案手法は、生産されたアバターの視覚的品質と多様性の観点から、現在の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-30T13:09:21Z) - DreamWaltz: Make a Scene with Complex 3D Animatable Avatars [68.49935994384047]
本稿では,テキストガイダンスとパラメトリック人体を用いた複雑な3Dアバターの生成とアニメーションを行う新しいフレームワークであるDreamWaltzを紹介する。
アニメーションでは,様々なポーズに条件付き拡散モデルの豊富な画像から,アニマタブルな3次元アバター表現を学習する。
論文 参考訳(メタデータ) (2023-05-21T17:59:39Z) - DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z) - AvatarCraft: Transforming Text into Neural Human Avatars with
Parameterized Shape and Pose Control [38.959851274747145]
アバタークラフト(AvatarCraft)は、3Dの人間のアバターを作る方法である。
拡散モデルを用いて1つのテキストプロンプトに基づく神経アバターの幾何学とテクスチャの学習を導く。
我々は、暗黙の場を明示的なワープフィールドで変形させることにより、人間のアバターをアニマタブルにする。
論文 参考訳(メタデータ) (2023-03-30T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。