論文の概要: Text and Image Guided 3D Avatar Generation and Manipulation
- arxiv url: http://arxiv.org/abs/2202.06079v1
- Date: Sat, 12 Feb 2022 14:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 15:33:51.015509
- Title: Text and Image Guided 3D Avatar Generation and Manipulation
- Title(参考訳): テキストと画像誘導3次元アバター生成と操作
- Authors: Zehranaz Canfes, M. Furkan Atasoy, Alara Dirik, Pinar Yanardag
- Abstract要約: テキストや「若い顔」や「驚きの顔」といった画像に基づくプロンプトを用いて、モデルの形状とテクスチャの両方を操作できる新しい3D操作法を提案する。
提案手法は操作に5分しか必要とせず,提案手法の有効性を広範囲な結果と比較で実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The manipulation of latent space has recently become an interesting topic in
the field of generative models. Recent research shows that latent directions
can be used to manipulate images towards certain attributes. However,
controlling the generation process of 3D generative models remains a challenge.
In this work, we propose a novel 3D manipulation method that can manipulate
both the shape and texture of the model using text or image-based prompts such
as 'a young face' or 'a surprised face'. We leverage the power of Contrastive
Language-Image Pre-training (CLIP) model and a pre-trained 3D GAN model
designed to generate face avatars, and create a fully differentiable rendering
pipeline to manipulate meshes. More specifically, our method takes an input
latent code and modifies it such that the target attribute specified by a text
or image prompt is present or enhanced, while leaving other attributes largely
unaffected. Our method requires only 5 minutes per manipulation, and we
demonstrate the effectiveness of our approach with extensive results and
comparisons.
- Abstract(参考訳): 潜在空間の操作は、最近、生成モデル分野において興味深いトピックとなっている。
近年の研究では、特定の属性に対する画像操作に潜伏方向を用いることができる。
しかし,3次元生成モデルの生成過程の制御は依然として課題である。
本研究では,「若い顔」や「驚いた顔」といったテキストや画像に基づくプロンプトを用いて,モデルの形状とテクスチャの両方を操作できる新しい3次元操作手法を提案する。
Contrastive Language-Image Pre-Training(CLIP)モデルと、顔アバターを生成するように設計された3D GANモデルを活用し、メッシュを操作するための完全に微分可能なレンダリングパイプラインを作成する。
具体的には,テキストや画像のプロンプトによって指定された対象属性が存在または拡張され,他の属性がほとんど影響を受けないように,入力潜時コードを用いて修正する。
提案手法は操作に5分しかかからず,広範囲な結果と比較を行い,本手法の有効性を実証する。
関連論文リスト
- Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。
任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。
本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文 参考訳(メタデータ) (2024-10-07T12:04:39Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - XAGen: 3D Expressive Human Avatars Generation [76.69560679209171]
XAGenは人体、顔、手を表現的に制御できる人間のアバターのための最初の3D生成モデルである。
身体, 顔, 手の合成を両立させる多部レンダリング手法を提案する。
実験によると、XAGenは現実主義、多様性、表現力のある制御能力の点で最先端の手法を超越している。
論文 参考訳(メタデータ) (2023-11-22T18:30:42Z) - Articulated 3D Head Avatar Generation using Text-to-Image Diffusion
Models [107.84324544272481]
多様な頭部アバターを合成する能力は、拡張現実、撮影、教育など、多くの応用に不可欠である。
テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。
拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T19:15:32Z) - Single-Shot Implicit Morphable Faces with Consistent Texture
Parameterization [91.52882218901627]
本稿では,3次元形態素な顔モデルを構築するための新しい手法を提案する。
本手法は, 最先端手法と比較して, フォトリアリズム, 幾何, 表現精度を向上する。
論文 参考訳(メタデータ) (2023-05-04T17:58:40Z) - ClipFace: Text-guided Editing of Textured 3D Morphable Models [33.83015491013442]
ClipFaceはテクスチャ化された顔の3次元形態素モデルのテキスト誘導編集のための新しい自己教師型アプローチである。
ユーザフレンドリーな言語プロンプトを用いて表現の制御と3D顔の出現を可能にする。
我々のモデルは、事前訓練されたCLIPモデルに基づいて、差別化可能なレンダリングと損失を利用して、自己教師型で訓練される。
論文 参考訳(メタデータ) (2022-12-02T19:01:08Z) - Controllable Face Manipulation and UV Map Generation by Self-supervised
Learning [20.10160338724354]
近年の手法は2次元生成モデルと3DMMを組み合わせることで2次元画像の明示的な制御を実現する。
3DMMによるテクスチャ再構築における現実性と明瞭さの欠如により,合成画像と3DMMの描画画像との間には領域ギャップがある。
本研究では,3DMMのパラメータを制御して,事前学習したStyleGANの潜在空間を明示的に編集することを提案する。
論文 参考訳(メタデータ) (2022-09-24T16:49:25Z) - Controllable 3D Generative Adversarial Face Model via Disentangling
Shape and Appearance [63.13801759915835]
3次元顔モデリングはコンピュータビジョンとコンピュータグラフィックスの研究の活発な領域である。
本稿では,識別と表現を分離できる新しい3次元顔生成モデルを提案する。
論文 参考訳(メタデータ) (2022-08-30T13:40:48Z) - Text to Mesh Without 3D Supervision Using Limit Subdivision [13.358081015190255]
本稿では,ターゲットテキストプロンプトのみを用いた3次元モデルのゼロショット生成手法を提案する。
入力テキストプロンプトを3Dモデルの異なるレンダリング画像と比較する、事前訓練されたCLIPモデルに依存しています。
論文 参考訳(メタデータ) (2022-03-24T20:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。