論文の概要: Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance
Fields using Geometry-Guided Text-to-Image Diffusion Model
- arxiv url: http://arxiv.org/abs/2309.03550v1
- Date: Thu, 7 Sep 2023 08:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 13:47:52.496922
- Title: Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance
Fields using Geometry-Guided Text-to-Image Diffusion Model
- Title(参考訳): Text2Control3D:Geometry-Guided Text-to- Image Diffusion Modelを用いたニューラルラジアンス場における制御可能な3次元アバター生成
- Authors: Sungwon Hwang, Junha Hyung, Jaegul Choo
- Abstract要約: 本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。
我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。
実験結果を実証し,本手法の有効性について考察する。
- 参考スコア(独自算出の注目度): 39.64952340472541
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in diffusion models such as ControlNet have enabled
geometrically controllable, high-fidelity text-to-image generation. However,
none of them addresses the question of adding such controllability to
text-to-3D generation. In response, we propose Text2Control3D, a controllable
text-to-3D avatar generation method whose facial expression is controllable
given a monocular video casually captured with hand-held camera. Our main
strategy is to construct the 3D avatar in Neural Radiance Fields (NeRF)
optimized with a set of controlled viewpoint-aware images that we generate from
ControlNet, whose condition input is the depth map extracted from the input
video. When generating the viewpoint-aware images, we utilize cross-reference
attention to inject well-controlled, referential facial expression and
appearance via cross attention. We also conduct low-pass filtering of Gaussian
latent of the diffusion model in order to ameliorate the viewpoint-agnostic
texture problem we observed from our empirical analysis, where the
viewpoint-aware images contain identical textures on identical pixel positions
that are incomprehensible in 3D. Finally, to train NeRF with the images that
are viewpoint-aware yet are not strictly consistent in geometry, our approach
considers per-image geometric variation as a view of deformation from a shared
3D canonical space. Consequently, we construct the 3D avatar in a canonical
space of deformable NeRF by learning a set of per-image deformation via
deformation field table. We demonstrate the empirical results and discuss the
effectiveness of our method.
- Abstract(参考訳): controlnetのような拡散モデルの最近の進歩は、幾何学的に制御可能で高精細なテキスト対画像生成を可能にした。
しかし、これらはテキストから3D生成への制御性の追加という問題に対処するものではない。
ハンドヘルドカメラでカジュアルに捉えたモノクロ映像から表情を制御可能なテキスト・ツー・3Dアバター生成法であるText2Control3Dを提案する。
ニューラルラジアンス・フィールド(NeRF)における3次元アバターの構築は,入力ビデオから抽出した深度マップが条件入力であるコントロールネットから生成した制御された視点認識画像の集合に最適化される。
視点認識画像を生成する際、クロスリファレンス・アテンション(cross-reference attention)を利用して、よく制御された参照的な表情と外観をクロス・アテンションで注入する。
また, 3d では理解できない同一画素位置に同一のテクスチャを含む視点認識画像を含む場合, 実験解析から観察した視点非依存なテクスチャ問題を改善するため, 拡散モデルのガウス的潜在性のローパスフィルタリングを行う。
最後に、視線を意識した画像でNeRFを訓練するには、図形ごとの幾何学的変動を、共有3次元標準空間からの変形のビューとみなす。
これにより、変形場テーブルを介して画像毎の変形の集合を学習することにより、変形可能なNeRFの正準空間に3Dアバターを構築する。
実験結果を実証し,本手法の有効性について考察する。
関連論文リスト
- Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。
MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文 参考訳(メタデータ) (2024-03-15T02:57:20Z) - Points-to-3D: Bridging the Gap between Sparse Points and
Shape-Controllable Text-to-3D Generation [16.232803881159022]
本稿では,スパースで自由な3Dポイントとリアルな形状制御可能な3D生成とのギャップを埋めるために,Points-to-3Dのフレキシブルなフレームワークを提案する。
Points-to-3Dの基本的な考え方は、テキストから3D生成を導くために制御可能なスパース3Dポイントを導入することである。
論文 参考訳(メタデータ) (2023-07-26T02:16:55Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - GazeNeRF: 3D-Aware Gaze Redirection with Neural Radiance Fields [100.53114092627577]
既存の視線リダイレクト法は2次元画像上で動作し、3次元一貫した結果を生成するのに苦労する。
顔領域と眼球は3次元構造であり、協調しているが独立して動くという直感に基づいて構築する。
論文 参考訳(メタデータ) (2022-12-08T13:19:11Z) - CGOF++: Controllable 3D Face Synthesis with Conditional Generative
Occupancy Fields [52.14985242487535]
生成した顔画像の3次元制御性を実現する条件付き3次元顔合成フレームワークを提案する。
中心となるのは条件付き生成操作場(cGOF++)であり、それによって生成された顔の形状が与えられた3Dモルファブルモデル(3DMM)メッシュに適合するように効果的に強制される。
提案手法の有効性を検証し, 最先端の2次元顔合成法よりも高精度な3次元制御性を示す実験を行った。
論文 参考訳(メタデータ) (2022-11-23T19:02:50Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - Controllable 3D Face Synthesis with Conditional Generative Occupancy
Fields [40.2714783162419]
生成した顔画像の3次元制御性を実現する条件付き3次元顔合成フレームワークを提案する。
中心となるのは条件付き生成活動場(cGOF)で、生成された顔の形状を効果的に強制し、与えられた3Dモルファブルモデル(3DMM)メッシュにコミットする。
実験により,高忠実度顔画像の生成が可能な提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-06-16T17:58:42Z) - Disentangled3D: Learning a 3D Generative Model with Disentangled
Geometry and Appearance from Monocular Images [94.49117671450531]
最先端の3D生成モデルは、合成に神経的な3Dボリューム表現を使用するGANである。
本稿では,単分子観察だけで物体の絡み合ったモデルを学ぶことができる3D GANを設計する。
論文 参考訳(メタデータ) (2022-03-29T22:03:18Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - 3D-GIF: 3D-Controllable Object Generation via Implicit Factorized
Representations [31.095503715696722]
本稿では、ビュー非依存かつ光異方性のある因子化表現と、ランダムにサンプリングされた光条件によるトレーニングスキームを提案する。
因子化表現,再照明画像,アルベドテクスチャメッシュを可視化することで,本手法の優位性を実証する。
これは、追加のラベルや仮定なしで、未提示の2Dイメージでアルベドテクスチャメッシュを抽出する最初の作業である。
論文 参考訳(メタデータ) (2022-03-12T15:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。