論文の概要: Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator
- arxiv url: http://arxiv.org/abs/2209.15637v1
- Date: Fri, 30 Sep 2022 17:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 16:00:32.390849
- Title: Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator
- Title(参考訳): 幾何アウェア判別器による3次元アウェア画像合成の改善
- Authors: Zifan Shi, Yinghao Xu, Yujun Shen, Deli Zhao, Qifeng Chen, Dit-Yan
Yeung
- Abstract要約: 3Dを意識した画像合成は、画像のリアルな2D画像の描画が可能な生成モデルを学ぶことを目的としている。
既存の方法では、適度な3D形状が得られない。
本稿では,3次元GANの改良を目的とした幾何学的識別器を提案する。
- 参考スコア(独自算出の注目度): 68.0533826852601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D-aware image synthesis aims at learning a generative model that can render
photo-realistic 2D images while capturing decent underlying 3D shapes. A
popular solution is to adopt the generative adversarial network (GAN) and
replace the generator with a 3D renderer, where volume rendering with neural
radiance field (NeRF) is commonly used. Despite the advancement of synthesis
quality, existing methods fail to obtain moderate 3D shapes. We argue that,
considering the two-player game in the formulation of GANs, only making the
generator 3D-aware is not enough. In other words, displacing the generative
mechanism only offers the capability, but not the guarantee, of producing
3D-aware images, because the supervision of the generator primarily comes from
the discriminator. To address this issue, we propose GeoD through learning a
geometry-aware discriminator to improve 3D-aware GANs. Concretely, besides
differentiating real and fake samples from the 2D image space, the
discriminator is additionally asked to derive the geometry information from the
inputs, which is then applied as the guidance of the generator. Such a simple
yet effective design facilitates learning substantially more accurate 3D
shapes. Extensive experiments on various generator architectures and training
datasets verify the superiority of GeoD over state-of-the-art alternatives.
Moreover, our approach is registered as a general framework such that a more
capable discriminator (i.e., with a third task of novel view synthesis beyond
domain classification and geometry extraction) can further assist the generator
with a better multi-view consistency.
- Abstract(参考訳): 3D対応画像合成は、画像のリアルな2D画像の描画が可能な生成モデルを学ぶことを目的としている。
一般的な解決策は、生成逆数ネットワーク(GAN)を採用し、3Dレンダラーに置き換えることである。
合成品質が向上したにもかかわらず、既存の方法では適度な3次元形状が得られなかった。
GANの定式化における2プレイヤーゲームを考えると、ジェネレータの3D認識だけでは不十分である。
言い換えれば、ジェネレータの監督は、主に判別器から行われるため、生成機構を廃止することは、3D認識画像の生成能力のみを提供するが、保証は提供しない。
この問題に対処するため,幾何学的識別器の学習を通じてGeoDを提案する。
具体的には、2次元画像空間から実検体と偽検体を区別する以外に、識別器に入力から幾何学情報を導出するよう依頼し、生成装置のガイダンスとして適用する。
このようなシンプルで効果的な設計は、より正確な3d形状の学習を容易にする。
さまざまなジェネレータアーキテクチャとトレーニングデータセットに関する広範な実験は、最先端の代替品よりもgeodが優れていることを検証している。
さらに,本手法は,より有能な判別器(ドメイン分類や幾何抽出以外の新しいビュー合成のタスク)が,より優れたマルチビュー整合性を持つジェネレータを補助する,汎用的な枠組みとして登録されている。
関連論文リスト
- GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality
3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。
画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。
IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文 参考訳(メタデータ) (2024-02-13T18:59:51Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。
生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。
近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2022-10-06T15:54:01Z) - 3D-Aware Indoor Scene Synthesis with Depth Priors [62.82867334012399]
既存の手法では、室内配置や内部の物体の多様さのため、屋内シーンのモデル化に失敗する。
室内のシーンは共通な内在構造を持たず、2次元画像のみを用いるだけでは3次元形状のモデルが適切にガイドできない。
論文 参考訳(メタデータ) (2022-02-17T09:54:29Z) - 3D-aware Image Synthesis via Learning Structural and Textural
Representations [39.681030539374994]
生成モデルを作成することは、2D画像空間と3D物理世界を橋渡しするが、まだ難しい。
近年、GAN(Generative Adversarial Network)とNeRF(Neural Radiance Field)という3次元座標をピクセル値にマッピングする手法が試みられている。
本稿では,構造表現とテクスチャ表現を明示的に学習することで,高忠実度3次元画像合成のための新しいフレームワーク,VolumeGANを提案する。
論文 参考訳(メタデータ) (2021-12-20T18:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。