論文の概要: Generative Multiplane Images: Making a 2D GAN 3D-Aware
- arxiv url: http://arxiv.org/abs/2207.10642v1
- Date: Thu, 21 Jul 2022 17:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:28:23.986453
- Title: Generative Multiplane Images: Making a 2D GAN 3D-Aware
- Title(参考訳): 次世代多面体画像:2D GAN 3D対応
- Authors: Xiaoming Zhao, Fangchang Ma, David G\"uera, Zhile Ren, Alexander G.
Schwing, Alex Colburn
- Abstract要約: 従来の2D GANであるStyleGANv2を可能な限り修正して,それを3D対応にしています。
1) 深度に条件付けされたアルファマップの集合を生成する多面体画像スタイルのジェネレータブランチ,2) ポーズ条件付き判別器。
生成した出力を「生成多面体画像」(GMPI)と呼び、そのレンダリングは高品質であるだけでなく、ビュー一貫性も保証されていることを強調する。
- 参考スコア(独自算出の注目度): 108.47553058554612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What is really needed to make an existing 2D GAN 3D-aware? To answer this
question, we modify a classical GAN, i.e., StyleGANv2, as little as possible.
We find that only two modifications are absolutely necessary: 1) a multiplane
image style generator branch which produces a set of alpha maps conditioned on
their depth; 2) a pose-conditioned discriminator. We refer to the generated
output as a 'generative multiplane image' (GMPI) and emphasize that its
renderings are not only high-quality but also guaranteed to be view-consistent,
which makes GMPIs different from many prior works. Importantly, the number of
alpha maps can be dynamically adjusted and can differ between training and
inference, alleviating memory concerns and enabling fast training of GMPIs in
less than half a day at a resolution of $1024^2$. Our findings are consistent
across three challenging and common high-resolution datasets, including FFHQ,
AFHQv2, and MetFaces.
- Abstract(参考訳): 既存の2D GAN 3D認識に何が必要か?
この質問に答えるために、古典的な GAN、すなわち StyleGANv2 をできるだけ小さく修正する。
必要な修正は2つだけです。
1) 深さに応じて条件づけされたアルファマップのセットを生成する多面体画像スタイル生成枝
2) ポーズ条件付き判別器。
生成した出力を「生成多面体画像」(GMPI)と呼び、そのレンダリングは高品質であるだけでなく、ビュー一貫性も保証されていることを強調し、GMPIを従来の多くの作品と異なるものにしている。
重要なことは、アルファマップの数は動的に調整でき、トレーニングと推論の相違、メモリの懸念の緩和、GMPIの高速トレーニングを1日半未満で1024^2$の解像度で行うことができる。
私たちの発見は、FFHQ、AFHQv2、MetFacesなど、難解で一般的な3つの高解像度データセットで一致しています。
関連論文リスト
- MiraGe: Editable 2D Images using Gaussian Splatting [0.0]
Inlicit Neural Representation (INRs) は連続関数を通して離散データを近似し、2次元画像を符号化するのによく用いられる。
ミラー反射法を用いて3次元空間の2次元画像を知覚し,平面制御されたガウスアンを用いて正確な2次元画像編集を行う新しい手法であるMiraGeを提案する。
われわれのアプローチは、レンダリングの質を改善し、リアルな画像修正を可能にする。
論文 参考訳(メタデータ) (2024-10-02T13:10:57Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - PREIM3D: 3D Consistent Precise Image Attribute Editing from a Single
Image [23.06474962139909]
本稿では,3次元画像属性編集問題について検討する。
最近の方法では、共有エンコーダを訓練して3Dジェネレータの潜伏空間に画像をマッピングすることで、この問題を解決している。
本稿では,3次元の整合性を維持するための2つの新しい手法,交互トレーニングスキームと多視点アイデンティティ損失を提案する。
論文 参考訳(メタデータ) (2023-04-20T12:33:56Z) - 3D generation on ImageNet [76.0440752186121]
3DGP: トレーニングデータに関するより一般的な仮定を持つ3D合成フレームワークを開発した。
私たちのモデルは3つの新しいアイデアに基づいている。
SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, ImageNet 256x256の4つのデータセットについて検討を行った。
論文 参考訳(メタデータ) (2023-03-02T17:06:57Z) - Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator [68.0533826852601]
3Dを意識した画像合成は、画像のリアルな2D画像の描画が可能な生成モデルを学ぶことを目的としている。
既存の方法では、適度な3D形状が得られない。
本稿では,3次元GANの改良を目的とした幾何学的識別器を提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:37Z) - EpiGRAF: Rethinking training of 3D GANs [60.38818140637367]
本稿では,SotA画像品質の高い高解像度3Dジェネレータを,パッチワイズを単純に訓練するまったく異なる経路を辿ることによって実現可能であることを示す。
EpiGRAFと呼ばれる結果のモデルは、効率的で高解像度で純粋な3Dジェネレータである。
論文 参考訳(メタデータ) (2022-06-21T17:08:23Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z) - Convolutional Generation of Textured 3D Meshes [34.20939983046376]
単視点自然画像からの2次元監視のみを用いて,三角形メッシュとそれに伴う高分解能テクスチャマップを生成できるフレームワークを提案する。
我々の研究の重要な貢献は、メッシュとテクスチャを2D表現として符号化することであり、意味的に整合し、2D畳み込みGANで容易にモデル化できる。
本研究では,Pascal3D+カーとCUBにおいて,モデルがクラスラベル,属性,テキストに条件付けされている場合とで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-13T15:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。