論文の概要: 3D-aware Image Synthesis via Learning Structural and Textural
Representations
- arxiv url: http://arxiv.org/abs/2112.10759v1
- Date: Mon, 20 Dec 2021 18:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 17:20:55.855369
- Title: 3D-aware Image Synthesis via Learning Structural and Textural
Representations
- Title(参考訳): 構造とテクスチャ表現の学習による3次元画像合成
- Authors: Yinghao Xu, Sida Peng, Ceyuan Yang, Yujun Shen, Bolei Zhou
- Abstract要約: 生成モデルを作成することは、2D画像空間と3D物理世界を橋渡しするが、まだ難しい。
近年、GAN(Generative Adversarial Network)とNeRF(Neural Radiance Field)という3次元座標をピクセル値にマッピングする手法が試みられている。
本稿では,構造表現とテクスチャ表現を明示的に学習することで,高忠実度3次元画像合成のための新しいフレームワーク,VolumeGANを提案する。
- 参考スコア(独自算出の注目度): 39.681030539374994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Making generative models 3D-aware bridges the 2D image space and the 3D
physical world yet remains challenging. Recent attempts equip a Generative
Adversarial Network (GAN) with a Neural Radiance Field (NeRF), which maps 3D
coordinates to pixel values, as a 3D prior. However, the implicit function in
NeRF has a very local receptive field, making the generator hard to become
aware of the global structure. Meanwhile, NeRF is built on volume rendering
which can be too costly to produce high-resolution results, increasing the
optimization difficulty. To alleviate these two problems, we propose a novel
framework, termed as VolumeGAN, for high-fidelity 3D-aware image synthesis,
through explicitly learning a structural representation and a textural
representation. We first learn a feature volume to represent the underlying
structure, which is then converted to a feature field using a NeRF-like model.
The feature field is further accumulated into a 2D feature map as the textural
representation, followed by a neural renderer for appearance synthesis. Such a
design enables independent control of the shape and the appearance. Extensive
experiments on a wide range of datasets show that our approach achieves
sufficiently higher image quality and better 3D control than the previous
methods.
- Abstract(参考訳): 生成モデルを作成することは、2D画像空間と3D物理世界を橋渡しする。
最近の試みでは、3d座標をピクセル値にマッピングするニューラル・ラジアンス・フィールド(nerf)を3dプリエントとして生成逆ネットワーク(gan)に実装している。
しかし、NeRFの暗黙の関数は非常に局所的な受容場を持ち、生成元が大域構造を認識することが困難になる。
一方、NeRFはボリュームレンダリング上に構築されており、高解像度な結果を得るにはコストがかかりすぎるため、最適化の難しさが増す。
これら2つの問題を緩和するために,構造表現とテクスチャ表現を明示的に学習し,高忠実度3D認識画像合成のための新しいフレームワーク,VolumeGANを提案する。
まず、基礎となる構造を表現するために特徴量を学び、次にNeRFのようなモデルを用いて特徴体に変換する。
さらに、特徴フィールドはテクスチャ表現として2次元特徴マップに蓄積され、その後、外観合成のためのニューラルレンダラーが続く。
このようなデザインは形状と外観を独立的に制御できる。
広い範囲のデータセットに対する大規模な実験により、我々の手法は以前の手法よりも十分な画像品質と3D制御を実現することが示された。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - GO-NeRF: Generating Virtual Objects in Neural Radiance Fields [75.13534508391852]
GO-NeRFは、既存のNeRF内の高品質で調和した3Dオブジェクト生成にシーンコンテキストを利用することができる。
本手法では,生成した3次元オブジェクトをシームレスにシーンに合成する構成的レンダリング形式を用いる。
論文 参考訳(メタデータ) (2024-01-11T08:58:13Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - NeRFMeshing: Distilling Neural Radiance Fields into
Geometrically-Accurate 3D Meshes [56.31855837632735]
我々は、NeRF駆動のアプローチで容易に3次元表面を再構成できるコンパクトで柔軟なアーキテクチャを提案する。
最後の3Dメッシュは物理的に正確で、デバイスアレイ上でリアルタイムでレンダリングできます。
論文 参考訳(メタデータ) (2023-03-16T16:06:03Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator [68.0533826852601]
3Dを意識した画像合成は、画像のリアルな2D画像の描画が可能な生成モデルを学ぶことを目的としている。
既存の方法では、適度な3D形状が得られない。
本稿では,3次元GANの改良を目的とした幾何学的識別器を提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:37Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。