論文の概要: AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars
- arxiv url: http://arxiv.org/abs/2205.08535v1
- Date: Tue, 17 May 2022 17:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 13:55:11.764440
- Title: AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars
- Title(参考訳): アバターCLIP:3次元アバターのゼロショットテキスト駆動生成とアニメーション
- Authors: Fangzhou Hong, Mingyuan Zhang, Liang Pan, Zhongang Cai, Lei Yang,
Ziwei Liu
- Abstract要約: AvatarCLIPは、3Dアバター生成とアニメーションのためのゼロショットテキスト駆動フレームワークである。
我々は、強力な視覚言語モデルCLIPを利用して、ニューラル・ヒューマン・ジェネレーションを監督する。
動作VAEで得られた先行情報を活用することで,CLIP誘導参照ベースモーション合成法が生成した3Dアバターのアニメーションに対して提案される。
- 参考スコア(独自算出の注目度): 37.43588165101838
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 3D avatar creation plays a crucial role in the digital age. However, the
whole production process is prohibitively time-consuming and labor-intensive.
To democratize this technology to a larger audience, we propose AvatarCLIP, a
zero-shot text-driven framework for 3D avatar generation and animation. Unlike
professional software that requires expert knowledge, AvatarCLIP empowers
layman users to customize a 3D avatar with the desired shape and texture, and
drive the avatar with the described motions using solely natural languages. Our
key insight is to take advantage of the powerful vision-language model CLIP for
supervising neural human generation, in terms of 3D geometry, texture and
animation. Specifically, driven by natural language descriptions, we initialize
3D human geometry generation with a shape VAE network. Based on the generated
3D human shapes, a volume rendering model is utilized to further facilitate
geometry sculpting and texture generation. Moreover, by leveraging the priors
learned in the motion VAE, a CLIP-guided reference-based motion synthesis
method is proposed for the animation of the generated 3D avatar. Extensive
qualitative and quantitative experiments validate the effectiveness and
generalizability of AvatarCLIP on a wide range of avatars. Remarkably,
AvatarCLIP can generate unseen 3D avatars with novel animations, achieving
superior zero-shot capability.
- Abstract(参考訳): 3Dアバターはデジタル時代において重要な役割を担っている。
しかし、生産プロセス全体が不当に時間がかかり、労働集約的である。
この技術をより多くのオーディエンスに広めるために,我々は3dアバターの生成とアニメーションのためのゼロショットテキスト駆動フレームワークであるavatarclipを提案する。
専門家の知識を必要とするプロのソフトウェアとは異なり、AvatarCLIPは3Dアバターを好みの形状とテクスチャでカスタマイズし、単に自然言語で記述したモーションでアバターを駆動する。
私たちの重要な洞察は、3次元幾何学、テクスチャ、アニメーションの観点から、ニューラルネットワーク生成を監督する強力な視覚言語モデルCLIPを活用することです。
具体的には, 自然言語記述により, 形状VAEネットワークによる3次元人体形状生成を初期化する。
生成した3次元人体形状に基づいてボリュームレンダリングモデルを用いて、さらに幾何学的彫刻とテクスチャ生成を容易にする。
さらに,動きVAEで学習した先行情報を活用することで,生成された3Dアバターのアニメーションに対してCLIP誘導参照ベースモーション合成法を提案する。
広範囲なアバター上でのアバターCLIPの有効性と一般化性を検証する。
注目すべきは、AvatarCLIPは、新しいアニメーションで見えない3Dアバターを生成することができ、優れたゼロショット機能を実現することである。
関連論文リスト
- DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D
Diffusion [69.67970568012599]
テキストからアニマタブルな3Dアバター生成のための新しい学習フレームワークDreamWaltz-Gを提案する。
このフレームワークのコアはScore DistillationとHybrid 3D Gaussian Avatar表現にある。
我々のフレームワークは、人間のビデオ再現や多目的シーン構成など、多様なアプリケーションもサポートしています。
論文 参考訳(メタデータ) (2024-09-25T17:59:45Z) - Text2Avatar: Text to 3D Human Avatar Generation with Codebook-Driven
Body Controllable Attribute [33.330629835556664]
本研究では,テキストプロンプトを結合した3次元アバターを現実的に生成できるText2Avatarを提案する。
リアルな3次元アバターデータの不足を軽減するために, 事前学習した非条件の3次元アバター生成モデルを用いる。
論文 参考訳(メタデータ) (2024-01-01T09:39:57Z) - Articulated 3D Head Avatar Generation using Text-to-Image Diffusion
Models [107.84324544272481]
多様な頭部アバターを合成する能力は、拡張現実、撮影、教育など、多くの応用に不可欠である。
テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。
拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T19:15:32Z) - DreamWaltz: Make a Scene with Complex 3D Animatable Avatars [68.49935994384047]
本稿では,テキストガイダンスとパラメトリック人体を用いた複雑な3Dアバターの生成とアニメーションを行う新しいフレームワークであるDreamWaltzを紹介する。
アニメーションでは,様々なポーズに条件付き拡散モデルの豊富な画像から,アニマタブルな3次元アバター表現を学習する。
論文 参考訳(メタデータ) (2023-05-21T17:59:39Z) - DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z) - AvatarCraft: Transforming Text into Neural Human Avatars with
Parameterized Shape and Pose Control [38.959851274747145]
アバタークラフト(AvatarCraft)は、3Dの人間のアバターを作る方法である。
拡散モデルを用いて1つのテキストプロンプトに基づく神経アバターの幾何学とテクスチャの学習を導く。
我々は、暗黙の場を明示的なワープフィールドで変形させることにより、人間のアバターをアニマタブルにする。
論文 参考訳(メタデータ) (2023-03-30T17:59:59Z) - AvatarGen: A 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、様々な外観と制御可能なジオメトリーを持つ3D認識された人間の無監督世代である。
提案手法は, 高品質な外観と幾何学的モデリングにより, アニマタブルな3次元アバターを生成することができる。
シングルビュー再構成、再アニメーション、テキスト誘導合成/編集など、多くのアプリケーションに向いている。
論文 参考訳(メタデータ) (2022-11-26T15:15:45Z) - AvatarGen: a 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、多様な外観を持つ非剛体世代だけでなく、ポーズや視点の完全な制御を可能にする最初の方法である。
非剛性力学をモデル化するために、正準空間におけるポーズ依存的な変形を学習するための変形ネットワークを導入する。
提案手法は,高品質な外観と幾何モデルを備えたアニマタブルな人体アバターを生成でき,従来の3D GANよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-08-01T01:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。