論文の概要: EpiGRAF: Rethinking training of 3D GANs
- arxiv url: http://arxiv.org/abs/2206.10535v1
- Date: Tue, 21 Jun 2022 17:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 13:58:27.790928
- Title: EpiGRAF: Rethinking training of 3D GANs
- Title(参考訳): EpiGRAF: 3D GANのトレーニング再考
- Authors: Ivan Skorokhodov, Sergey Tulyakov, Yiqun Wang, Peter Wonka
- Abstract要約: 本稿では,SotA画像品質の高い高解像度3Dジェネレータを,パッチワイズを単純に訓練するまったく異なる経路を辿ることによって実現可能であることを示す。
EpiGRAFと呼ばれる結果のモデルは、効率的で高解像度で純粋な3Dジェネレータである。
- 参考スコア(独自算出の注目度): 60.38818140637367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A very recent trend in generative modeling is building 3D-aware generators
from 2D image collections. To induce the 3D bias, such models typically rely on
volumetric rendering, which is expensive to employ at high resolutions. During
the past months, there appeared more than 10 works that address this scaling
issue by training a separate 2D decoder to upsample a low-resolution image (or
a feature tensor) produced from a pure 3D generator. But this solution comes at
a cost: not only does it break multi-view consistency (i.e. shape and texture
change when the camera moves), but it also learns the geometry in a low
fidelity. In this work, we show that it is possible to obtain a high-resolution
3D generator with SotA image quality by following a completely different route
of simply training the model patch-wise. We revisit and improve this
optimization scheme in two ways. First, we design a location- and scale-aware
discriminator to work on patches of different proportions and spatial
positions. Second, we modify the patch sampling strategy based on an annealed
beta distribution to stabilize training and accelerate the convergence. The
resulted model, named EpiGRAF, is an efficient, high-resolution, pure 3D
generator, and we test it on four datasets (two introduced in this work) at
$256^2$ and $512^2$ resolutions. It obtains state-of-the-art image quality,
high-fidelity geometry and trains ${\approx} 2.5 \times$ faster than the
upsampler-based counterparts. Project website:
https://universome.github.io/epigraf.
- Abstract(参考訳): 生成モデリングの非常に最近のトレンドは、2次元画像コレクションから3D対応ジェネレータを構築することである。
3Dバイアスを誘発するために、そのようなモデルは典型的にはボリュームレンダリングに依存し、高解像度で使用するには高価である。
過去数ヶ月の間に、純粋な3dジェネレータから生成された低解像度の画像(あるいは特徴テンソル)をサンプリングするために、別の2dデコーダをトレーニングすることで、このスケーリング問題に対処する10以上の作業が現れた。
しかし、この解決策にはコストがかかる:マルチビューの一貫性を損なうだけでなく(カメラが動くときの形状やテクスチャの変化など)、低忠実度で幾何学を学習する。
そこで本研究では, モデルパッチを単純に訓練する全く異なる経路をたどることで, sota画像品質の高分解能3d生成器を得ることが可能であることを示す。
我々はこの最適化方式を2つの方法で再検討し改善する。
まず,異なる比率と空間的位置のパッチに取り組むために,位置対応およびスケール対応の判別器を設計する。
第2に,アニールしたベータ分布に基づいてパッチサンプリング戦略を変更し,トレーニングの安定化と収束の促進を図る。
EpiGRAFと名付けられたこのモデルは、効率的で高解像度で純粋な3Dジェネレータであり、この研究で導入された2つのデータセットで256^2$と512^2$の解像度でテストする。
最先端の画像品質、高精細度ジオメトリ、およびupsamplerベースのものよりも2.5 \times$の列車が得られる。
プロジェクトサイト: https://universome.github.io/epigraf.com
関連論文リスト
- SuperGaussian: Repurposing Video Models for 3D Super Resolution [67.19266415499139]
本稿では,幾何学的および外観的詳細を付加することにより,粗い3次元モデルをアップサンプルする,単純でモジュラーで汎用的な手法を提案する。
既存の3次元超解像モデルを直接再利用できることを実証する。
論文 参考訳(メタデータ) (2024-06-02T03:44:50Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - 3D generation on ImageNet [76.0440752186121]
3DGP: トレーニングデータに関するより一般的な仮定を持つ3D合成フレームワークを開発した。
私たちのモデルは3つの新しいアイデアに基づいている。
SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, ImageNet 256x256の4つのデータセットについて検討を行った。
論文 参考訳(メタデータ) (2023-03-02T17:06:57Z) - Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator [68.0533826852601]
3Dを意識した画像合成は、画像のリアルな2D画像の描画が可能な生成モデルを学ぶことを目的としている。
既存の方法では、適度な3D形状が得られない。
本稿では,3次元GANの改良を目的とした幾何学的識別器を提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:37Z) - GRAM-HD: 3D-Consistent Image Generation at High Resolution with
Generative Radiance Manifolds [28.660893916203747]
本稿では,ボリュームレンダリングのように厳密な3D一貫性を維持しつつ,高解像度画像(最大1024×1024)を生成できる新しい3D対応GANを提案する。
私たちのモチベーションは、3Dの一貫性を維持するために、3D空間で直接超解像度を達成することです。
FFHQおよびAFHQv2データセットを用いた実験により,本手法は高品質な3D一貫性のある結果が得られることが示された。
論文 参考訳(メタデータ) (2022-06-15T02:35:51Z) - CIPS-3D: A 3D-Aware Generator of GANs Based on Conditionally-Independent
Pixel Synthesis [148.4104739574094]
本稿では,浅いNeRFネットワークと深い暗黙のニューラル表現ネットワークからなるスタイルベースの3D対応ジェネレータであるCIPS-3Dを提案する。
ジェネレータは、空間畳み込みやアップサンプリング操作をすることなく、各画素値を独立して合成する。
FFHQの256times256$解像度で、画像のFIDが6.97で3D対応画像合成の新記録を樹立した。
論文 参考訳(メタデータ) (2021-10-19T08:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。