論文の概要: Text-Conditional Contextualized Avatars For Zero-Shot Personalization
- arxiv url: http://arxiv.org/abs/2304.07410v1
- Date: Fri, 14 Apr 2023 22:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 19:10:02.728144
- Title: Text-Conditional Contextualized Avatars For Zero-Shot Personalization
- Title(参考訳): ゼロショットパーソナライズのためのテキスト条件付きコンテキスト化アバター
- Authors: Samaneh Azadi, Thomas Hayes, Akbar Shah, Guan Pang, Devi Parikh, Sonal
Gupta
- Abstract要約: 本研究では,アバターによる画像生成のパーソナライズを可能にするパイプラインを提案する。
私たちのパイプラインはゼロショット、アバターテクスチャ、スタイル非依存で、アバターのトレーニングは一切必要ありません。
大規模な画像データセットを利用して人間の3Dポーズパラメータを学習する方法を初めて示す。
- 参考スコア(独自算出の注目度): 47.85747039373798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent large-scale text-to-image generation models have made significant
improvements in the quality, realism, and diversity of the synthesized images
and enable users to control the created content through language. However, the
personalization aspect of these generative models is still challenging and
under-explored. In this work, we propose a pipeline that enables
personalization of image generation with avatars capturing a user's identity in
a delightful way. Our pipeline is zero-shot, avatar texture and style agnostic,
and does not require training on the avatar at all - it is scalable to millions
of users who can generate a scene with their avatar. To render the avatar in a
pose faithful to the given text prompt, we propose a novel text-to-3D pose
diffusion model trained on a curated large-scale dataset of in-the-wild human
poses improving the performance of the SOTA text-to-motion models
significantly. We show, for the first time, how to leverage large-scale image
datasets to learn human 3D pose parameters and overcome the limitations of
motion capture datasets.
- Abstract(参考訳): 近年の大規模テキスト・画像生成モデルでは,合成画像の品質,リアリズム,多様性が大幅に向上し,ユーザが言語で生成したコンテンツを制御できるようになった。
しかし、これらの生成モデルのパーソナライゼーションの側面は依然として困難であり、未熟である。
本研究では,アバターによる画像生成のパーソナライズを可能にするパイプラインを提案する。
私たちのパイプラインはゼロショット、アバターテクスチャ、スタイル非依存で、アバターをトレーニングする必要はまったくありません。
与えられたテキストプロンプトに忠実なポーズでアバターを描画するために,人工ポーズの大規模データセットを訓練した新しいテキストから3dポーズ拡散モデルを提案する。
大規模な画像データセットを活用して人間の3Dポーズパラメータを学習し、モーションキャプチャデータセットの限界を克服する方法を初めて示す。
関連論文リスト
- TEDRA: Text-based Editing of Dynamic and Photoreal Actors [59.480513384611804]
TEDRAはアバターのテキストベースの編集を可能にする最初の方法である。
我々は、実際の俳優の制御可能で高忠実なデジタルレプリカを作成するためにモデルを訓練する。
提供されるテキストプロンプトに基づいて動的アバターを変更する。
論文 参考訳(メタデータ) (2024-08-28T17:59:02Z) - GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars [44.8290935585746]
フォトリアリスティックでコントロール可能な3Dアバターは、バーチャルリアリティー(VR/MR)、テレプレゼンス、ゲーム、映画制作など、様々な用途に欠かせない。
アバター作成の伝統的な方法は、しばしば各アバターのスキャンと再構築に時間を要する。
本稿では,多彩なアイデンティティを持つ写真リアルな顔アバターを生成可能なテキスト条件生成モデルを提案する。
論文 参考訳(メタデータ) (2024-08-24T21:25:22Z) - MagicMirror: Fast and High-Quality Avatar Generation with a Constrained Search Space [25.24509617548819]
テキストプロンプトを利用した3次元アバター生成とパーソナライズのための新しいフレームワークを提案する。
主要なイノベーションは、フォトリアリスティックなアバター合成の課題を克服することを目的としている。
論文 参考訳(メタデータ) (2024-04-01T17:59:11Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - XAGen: 3D Expressive Human Avatars Generation [76.69560679209171]
XAGenは人体、顔、手を表現的に制御できる人間のアバターのための最初の3D生成モデルである。
身体, 顔, 手の合成を両立させる多部レンダリング手法を提案する。
実験によると、XAGenは現実主義、多様性、表現力のある制御能力の点で最先端の手法を超越している。
論文 参考訳(メタデータ) (2023-11-22T18:30:42Z) - AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation [14.062402203105712]
AvatarBoothはテキストプロンプトや特定の画像を使って高品質な3Dアバターを生成する新しい方法である。
我々の重要な貢献は、二重微調整拡散モデルを用いた正確なアバター生成制御である。
本稿では,3次元アバター生成の粗大な監視を容易にするマルチレゾリューションレンダリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-16T14:18:51Z) - DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z) - AvatarCraft: Transforming Text into Neural Human Avatars with
Parameterized Shape and Pose Control [38.959851274747145]
アバタークラフト(AvatarCraft)は、3Dの人間のアバターを作る方法である。
拡散モデルを用いて1つのテキストプロンプトに基づく神経アバターの幾何学とテクスチャの学習を導く。
我々は、暗黙の場を明示的なワープフィールドで変形させることにより、人間のアバターをアニマタブルにする。
論文 参考訳(メタデータ) (2023-03-30T17:59:59Z) - AvatarGen: a 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、多様な外観を持つ非剛体世代だけでなく、ポーズや視点の完全な制御を可能にする最初の方法である。
非剛性力学をモデル化するために、正準空間におけるポーズ依存的な変形を学習するための変形ネットワークを導入する。
提案手法は,高品質な外観と幾何モデルを備えたアニマタブルな人体アバターを生成でき,従来の3D GANよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-08-01T01:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。