論文の概要: 3D-FM GAN: Towards 3D-Controllable Face Manipulation
- arxiv url: http://arxiv.org/abs/2208.11257v1
- Date: Wed, 24 Aug 2022 01:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:40:00.156507
- Title: 3D-FM GAN: Towards 3D-Controllable Face Manipulation
- Title(参考訳): 3D-FM GAN:3D制御可能な顔操作を目指して
- Authors: Yuchen Liu, Zhixin Shu, Yijun Li, Zhe Lin, Richard Zhang, S.Y. Kung
- Abstract要約: 3D-FM GANは、3D制御可能な顔操作に特化した新しい条件付きGANフレームワークである。
入力された顔画像と3D編集の物理的レンダリングの両方をStyleGANの潜在空間に注意深く符号化することにより、画像生成装置は高品質でアイデンティティを保存し、3D制御可能な顔操作を提供する。
提案手法は, 編集性の向上, アイデンティティの保存性の向上, 写真リアリズムの向上など, 様々なタスクにおいて, 先行技術よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 43.99393180444706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D-controllable portrait synthesis has significantly advanced, thanks to
breakthroughs in generative adversarial networks (GANs). However, it is still
challenging to manipulate existing face images with precise 3D control. While
concatenating GAN inversion and a 3D-aware, noise-to-image GAN is a
straight-forward solution, it is inefficient and may lead to noticeable drop in
editing quality. To fill this gap, we propose 3D-FM GAN, a novel conditional
GAN framework designed specifically for 3D-controllable face manipulation, and
does not require any tuning after the end-to-end learning phase. By carefully
encoding both the input face image and a physically-based rendering of 3D edits
into a StyleGAN's latent spaces, our image generator provides high-quality,
identity-preserved, 3D-controllable face manipulation. To effectively learn
such novel framework, we develop two essential training strategies and a novel
multiplicative co-modulation architecture that improves significantly upon
naive schemes. With extensive evaluations, we show that our method outperforms
the prior arts on various tasks, with better editability, stronger identity
preservation, and higher photo-realism. In addition, we demonstrate a better
generalizability of our design on large pose editing and out-of-domain images.
- Abstract(参考訳): 3d制御可能なポートレート合成は、gans(generative adversarial networks)のブレークスルーのおかげで大幅に進歩した。
しかし、既存の顔画像を正確な3D制御で操作することは依然として困難である。
GANインバージョンと3D認識を結合する一方で、ノイズ・ツー・イメージのGANは直接フォワードのソリューションであり、非効率であり、編集品質が著しく低下する可能性がある。
このギャップを埋めるために3D-FM GANを提案する。これは3D制御可能な顔操作用に設計された新しい条件付きGANフレームワークで、エンドツーエンドの学習フェーズ後にチューニングを一切必要としない。
入力された顔画像と3D編集の物理的レンダリングの両方をStyleGANの潜在空間に注意深く符号化することにより、画像生成装置は高品質でアイデンティティを保存し、3D制御可能な顔操作を提供する。
このような新しい枠組みを効果的に学習するために,2つの本質的な学習戦略と,ナイーブなスキームにより大幅に改善される新しい乗法共変調アーキテクチャを開発した。
広範囲な評価により,本手法は,編集性の向上,アイデンティティの保存性の向上,写真リアリズムの向上など,様々なタスクにおいて先行技術よりも優れることを示す。
さらに,大規模なポーズ編集やドメイン外の画像に対して,デザインの一般化性の向上を示す。
関連論文リスト
- Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Designing a 3D-Aware StyleNeRF Encoder for Face Editing [15.303426697795143]
本稿では,強力なStyleNeRFモデルに基づくGANインバージョンと顔編集のための3D対応エンコーダを提案する。
提案する3Daエンコーダは、パラメトリックな3次元顔モデルと学習可能な詳細表現モデルを組み合わせて、幾何学、テクスチャ、ビュー方向コードを生成する。
論文 参考訳(メタデータ) (2023-02-19T03:32:28Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - CGOF++: Controllable 3D Face Synthesis with Conditional Generative
Occupancy Fields [52.14985242487535]
生成した顔画像の3次元制御性を実現する条件付き3次元顔合成フレームワークを提案する。
中心となるのは条件付き生成操作場(cGOF++)であり、それによって生成された顔の形状が与えられた3Dモルファブルモデル(3DMM)メッシュに適合するように効果的に強制される。
提案手法の有効性を検証し, 最先端の2次元顔合成法よりも高精度な3次元制御性を示す実験を行った。
論文 参考訳(メタデータ) (2022-11-23T19:02:50Z) - 3D GAN Inversion with Pose Optimization [26.140281977885376]
本稿では,カメラ視点と潜時符号を同時に推論し,マルチビューで一貫したセマンティック画像編集を可能にする一般化可能な3D GANインバージョン手法を提案する。
画像の再構成と編集を定量的かつ質的に行い、さらに2D GANベースの編集と比較した。
論文 参考訳(メタデータ) (2022-10-13T19:06:58Z) - Controllable 3D Face Synthesis with Conditional Generative Occupancy
Fields [40.2714783162419]
生成した顔画像の3次元制御性を実現する条件付き3次元顔合成フレームワークを提案する。
中心となるのは条件付き生成活動場(cGOF)で、生成された顔の形状を効果的に強制し、与えられた3Dモルファブルモデル(3DMM)メッシュにコミットする。
実験により,高忠実度顔画像の生成が可能な提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-06-16T17:58:42Z) - IDE-3D: Interactive Disentangled Editing for High-Resolution 3D-aware
Portrait Synthesis [38.517819699560945]
システムを構成する3つの主要なコンポーネントは,(1)図形に一貫性のある,不整合な顔画像とセマンティックマスクを生成する3次元セマンティック認識生成モデル,(2)意味的およびテクスチャエンコーダから潜伏符号を初期化し,さらに忠実な再構築のために最適化するハイブリッドGANインバージョンアプローチ,(3)カノニカルビューにおけるセマンティックマスクの効率的な操作を可能にするカノニカルエディタ,の3つである。
論文 参考訳(メタデータ) (2022-05-31T03:35:44Z) - Efficient Geometry-aware 3D Generative Adversarial Networks [50.68436093869381]
既存の3D GANは計算集約的であるか、3D一貫性のない近似を行う。
本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。
本稿では,高解像度のマルチビュー一貫性画像だけでなく,高品質な3次元形状をリアルタイムに合成する,表現型ハイブリッド・明示型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-15T08:01:43Z) - MOST-GAN: 3D Morphable StyleGAN for Disentangled Face Image Manipulation [69.35523133292389]
本稿では,顔の物理的属性を明示的にモデル化するフレームワークを提案する。
提案手法であるMOST-GANは,GANの表現力と光リアリズムを,非線形3次元形態素モデルの物理的ゆがみおよび柔軟性と統合する。
ポートレート画像の物理的特性を完全に3D制御する写真リアルな操作を実現し、照明の極端な操作、表情、およびフルプロファイルビューまでのポーズのバリエーションを可能にする。
論文 参考訳(メタデータ) (2021-11-01T15:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。