論文の概要: Dual Encoder GAN Inversion for High-Fidelity 3D Head Reconstruction from Single Images
- arxiv url: http://arxiv.org/abs/2409.20530v1
- Date: Mon, 30 Sep 2024 17:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 02:20:11.662032
- Title: Dual Encoder GAN Inversion for High-Fidelity 3D Head Reconstruction from Single Images
- Title(参考訳): 高忠実度3次元頭部再構成のためのデュアルエンコーダGANインバージョン
- Authors: Bahri Batuhan Bilecen, Ahmet Berke Gokmen, Aysegul Dundar,
- Abstract要約: 3D GANインバージョンは、単一の画像をGAN(Generative Adversarial Network)の潜在空間に投影することを目的としている。
3D GANインバージョンには良い結果をもたらすエンコーダがあるが、主にEG3D上に構築されている。
画像の360度合成に優れたパノヘッドを基盤とした新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.558093666229553
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 3D GAN inversion aims to project a single image into the latent space of a 3D Generative Adversarial Network (GAN), thereby achieving 3D geometry reconstruction. While there exist encoders that achieve good results in 3D GAN inversion, they are predominantly built on EG3D, which specializes in synthesizing near-frontal views and is limiting in synthesizing comprehensive 3D scenes from diverse viewpoints. In contrast to existing approaches, we propose a novel framework built on PanoHead, which excels in synthesizing images from a 360-degree perspective. To achieve realistic 3D modeling of the input image, we introduce a dual encoder system tailored for high-fidelity reconstruction and realistic generation from different viewpoints. Accompanying this, we propose a stitching framework on the triplane domain to get the best predictions from both. To achieve seamless stitching, both encoders must output consistent results despite being specialized for different tasks. For this reason, we carefully train these encoders using specialized losses, including an adversarial loss based on our novel occlusion-aware triplane discriminator. Experiments reveal that our approach surpasses the existing encoder training methods qualitatively and quantitatively. Please visit the project page: https://berkegokmen1.github.io/dual-enc-3d-gan-inv.
- Abstract(参考訳): 3D GANインバージョンは、GAN(Generative Adversarial Network)の潜在空間に単一の画像を投影することを目的としており、3D幾何再構成を実現する。
3D GANのインバージョンには良い結果をもたらすエンコーダが存在するが、それらは主にEG3D上に構築されており、これは正面近傍のビューの合成に特化しており、多様な視点から総合的な3Dシーンの合成に制限されている。
既存のアプローチとは対照的に,360度画像の合成に優れるPanoHead上に構築された新しいフレームワークを提案する。
入力画像のリアルな3次元モデリングを実現するために,高忠実度再構成と異なる視点からのリアルな生成に適したデュアルエンコーダシステムを導入する。
これに対応して,両分野の最高の予測を得るために,三面体領域の縫合フレームワークを提案する。
シームレスな縫合を実現するために、両エンコーダは異なるタスクに特化しているにもかかわらず一貫した結果を出力しなければならない。
このような理由から,我々は,新たなオクルージョン対応三面体判別器に基づく対角線損失を含む,特殊な損失を用いて,これらのエンコーダを慎重に訓練する。
実験により,本手法は既存のエンコーダ学習手法を質的,定量的に超越していることが明らかとなった。
プロジェクトページをご覧ください。 https://berkegokmen1.github.io/dual-enc-3d-gan-inv。
関連論文リスト
- GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning [67.61509647032862]
入力された2次元画像を任意の3次元表現にエンコードするGOEmbed(Gradient Origin Embeddings)を提案する。
入力画像が大きな事前訓練されたモデルから抽出された2D特徴を用いて符号化される典型的な従来のアプローチとは異なり、カスタマイズされた特徴は異なる3D表現を扱うように設計されている。
論文 参考訳(メタデータ) (2023-12-14T08:39:39Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - TriPlaneNet: An Encoder for EG3D Inversion [1.9567015559455132]
NeRFをベースとしたGANは、人間の頭部の高分解能かつ高忠実な生成モデリングのための多くのアプローチを導入している。
2D GANインバージョンのための普遍的最適化に基づく手法の成功にもかかわらず、3D GANに適用された手法は、結果を新しい視点に外挿することができないかもしれない。
本稿では,EG3D生成モデルに提示された3面表現を直接利用することにより,両者のギャップを埋める高速な手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:56:20Z) - Make Encoder Great Again in 3D GAN Inversion through Geometry and
Occlusion-Aware Encoding [25.86312557482366]
3D GANインバージョンは、単一の画像入力から高い再構成忠実度と合理的な3D幾何を同時に達成することを目的としている。
本稿では,最も広く使用されている3D GANモデルの1つであるEG3Dに基づく,新しいエンコーダベースの逆変換フレームワークを提案する。
提案手法は,最大500倍高速に動作しながら,最適化手法に匹敵する印象的な結果が得られる。
論文 参考訳(メタデータ) (2023-03-22T05:51:53Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - 3D GAN Inversion with Pose Optimization [26.140281977885376]
本稿では,カメラ視点と潜時符号を同時に推論し,マルチビューで一貫したセマンティック画像編集を可能にする一般化可能な3D GANインバージョン手法を提案する。
画像の再構成と編集を定量的かつ質的に行い、さらに2D GANベースの編集と比較した。
論文 参考訳(メタデータ) (2022-10-13T19:06:58Z) - Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator [68.0533826852601]
3Dを意識した画像合成は、画像のリアルな2D画像の描画が可能な生成モデルを学ぶことを目的としている。
既存の方法では、適度な3D形状が得られない。
本稿では,3次元GANの改良を目的とした幾何学的識別器を提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:37Z) - 3D-Aware Indoor Scene Synthesis with Depth Priors [62.82867334012399]
既存の手法では、室内配置や内部の物体の多様さのため、屋内シーンのモデル化に失敗する。
室内のシーンは共通な内在構造を持たず、2次元画像のみを用いるだけでは3次元形状のモデルが適切にガイドできない。
論文 参考訳(メタデータ) (2022-02-17T09:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。