論文の概要: DivAvatar: Diverse 3D Avatar Generation with a Single Prompt
- arxiv url: http://arxiv.org/abs/2402.17292v1
- Date: Tue, 27 Feb 2024 08:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:24:55.694570
- Title: DivAvatar: Diverse 3D Avatar Generation with a Single Prompt
- Title(参考訳): DivAvatar: 単発の3Dアバター・ジェネレーション
- Authors: Weijing Tao, Biwen Lei, Kunhao Liu, Shijian Lu, Miaomiao Cui, Xuansong
Xie, Chunyan Miao
- Abstract要約: DivAvatarは、単一のテキストプロンプトから多様なアバターを生成するフレームワークである。
生成の多様性と視覚的品質を達成するための2つの重要な設計がある。
大規模な実験により、ディヴァバターは様々な外観のアバターを生成するのに非常に多用途であることが示されている。
- 参考スコア(独自算出の注目度): 95.9978722953278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Avatar generation has recently made significant strides due to
advancements in diffusion models. However, most existing work remains
constrained by limited diversity, producing avatars with subtle differences in
appearance for a given text prompt. We design DivAvatar, a novel framework that
generates diverse avatars, empowering 3D creatives with a multitude of distinct
and richly varied 3D avatars from a single text prompt. Different from most
existing work that exploits scene-specific 3D representations such as NeRF,
DivAvatar finetunes a 3D generative model (i.e., EVA3D), allowing diverse
avatar generation from simply noise sampling in inference time. DivAvatar has
two key designs that help achieve generation diversity and visual quality. The
first is a noise sampling technique during training phase which is critical in
generating diverse appearances. The second is a semantic-aware zoom mechanism
and a novel depth loss, the former producing appearances of high textual
fidelity by separate fine-tuning of specific body parts and the latter
improving geometry quality greatly by smoothing the generated mesh in the
features space. Extensive experiments show that DivAvatar is highly versatile
in generating avatars of diverse appearances.
- Abstract(参考訳): テキストからアバタールへの生成は最近、拡散モデルの進歩によって大きな進歩を遂げている。
しかし、既存の作品の多くは限定的な多様性によって制約を受けており、与えられたテキストプロンプトの外観の微妙な違いを持つアバターが生み出されている。
多様なアバターを生成する新しいフレームワークであるDivAvatarを設計し、単一のテキストプロンプトから多種多様な多種多様な3Dアバターを3Dクリエイティブに活用する。
NeRF、DivAvatar finetunes 3D生成モデル(EVA3D)のようなシーン固有の3D表現を利用する既存の作業とは異なり、単純なノイズサンプリングから様々なアバターを生成することができる。
DivAvatarには、世代多様性と視覚的品質を達成するための2つの重要な設計がある。
第一は,様々な外観を創り出すのに不可欠な訓練段階におけるノイズサンプリング手法である。
2つめは意味認識ズーム機構と新しい奥行き損失であり、前者は特定の身体部位の微調整を分離してテキスト忠実度の高い外観を生成し、後者は特徴空間で生成されたメッシュを滑らかにすることで幾何学的品質を大幅に向上させる。
広範な実験により、ディヴァタールは多様な外観のアバターを生成するのに非常に多用途であることが示された。
関連論文リスト
- DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D
Diffusion [69.67970568012599]
テキストからアニマタブルな3Dアバター生成のための新しい学習フレームワークDreamWaltz-Gを提案する。
このフレームワークのコアはScore DistillationとHybrid 3D Gaussian Avatar表現にある。
我々のフレームワークは、人間のビデオ再現や多目的シーン構成など、多様なアプリケーションもサポートしています。
論文 参考訳(メタデータ) (2024-09-25T17:59:45Z) - GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars [44.8290935585746]
フォトリアリスティックでコントロール可能な3Dアバターは、バーチャルリアリティー(VR/MR)、テレプレゼンス、ゲーム、映画制作など、様々な用途に欠かせない。
アバター作成の伝統的な方法は、しばしば各アバターのスキャンと再構築に時間を要する。
本稿では,多彩なアイデンティティを持つ写真リアルな顔アバターを生成可能なテキスト条件生成モデルを提案する。
論文 参考訳(メタデータ) (2024-08-24T21:25:22Z) - Instant 3D Human Avatar Generation using Image Diffusion Models [37.45927867788691]
AvatarPopUpは、異なる入力モードから高速で高品質な3Dアバターを生成する方法である。
われわれのアプローチでは、わずか2秒で3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2024-06-11T17:47:27Z) - GeneAvatar: Generic Expression-Aware Volumetric Head Avatar Editing from a Single Image [89.70322127648349]
本稿では,多種多様な3DMM駆動ヘッドアバターに適用可能な汎用的なアバター編集手法を提案する。
この目的を達成するために、単一の画像から一貫した3D修正フィールドへのリフト2D編集を可能にする新しい表現対応修正生成モデルを設計する。
論文 参考訳(メタデータ) (2024-04-02T17:58:35Z) - UltrAvatar: A Realistic Animatable 3D Avatar Diffusion Model with Authenticity Guided Textures [80.047065473698]
幾何学の忠実度を高めたUltrAvatarと呼ばれる新しい3次元アバター生成手法を提案し,光を必要とせずに物理ベースレンダリング(PBR)テクスチャの質を向上する。
提案手法の有効性とロバスト性を実証し,実験において最先端の手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2024-01-20T01:55:17Z) - AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation [14.062402203105712]
AvatarBoothはテキストプロンプトや特定の画像を使って高品質な3Dアバターを生成する新しい方法である。
我々の重要な貢献は、二重微調整拡散モデルを用いた正確なアバター生成制御である。
本稿では,3次元アバター生成の粗大な監視を容易にするマルチレゾリューションレンダリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-16T14:18:51Z) - StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity
3D Avatar Generation [103.88928334431786]
高品質な3Dアバターを製作するための新しい手法を提案する。
データ生成には事前学習した画像テキスト拡散モデルとGANベースの3次元生成ネットワークを用いて訓練を行う。
提案手法は、生産されたアバターの視覚的品質と多様性の観点から、現在の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-30T13:09:21Z) - DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。