論文の概要: VoxGRAF: Fast 3D-Aware Image Synthesis with Sparse Voxel Grids
- arxiv url: http://arxiv.org/abs/2206.07695v2
- Date: Fri, 17 Jun 2022 15:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 10:35:01.907918
- Title: VoxGRAF: Fast 3D-Aware Image Synthesis with Sparse Voxel Grids
- Title(参考訳): VoxGRAF: スパースボクセルグリッドを用いた高速3次元画像合成
- Authors: Katja Schwarz and Axel Sauer and Michael Niemeyer and Yiyi Liao and
Andreas Geiger
- Abstract要約: 最先端の3D認識生成モデルは座標に基づくパラメータ化3Dラディアンス場に依存している。
既存のアプローチでは、しばしば解像度の低い特徴写像をレンダリングし、それをアップサンプリングネットワークで処理して最終的な画像を得る。
既存の手法とは対照的に,本手法では完全な3Dシーンを生成するために,単一の前方通過しか必要としない。
- 参考スコア(独自算出の注目度): 42.74658047803192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-of-the-art 3D-aware generative models rely on coordinate-based MLPs to
parameterize 3D radiance fields. While demonstrating impressive results,
querying an MLP for every sample along each ray leads to slow rendering.
Therefore, existing approaches often render low-resolution feature maps and
process them with an upsampling network to obtain the final image. Albeit
efficient, neural rendering often entangles viewpoint and content such that
changing the camera pose results in unwanted changes of geometry or appearance.
Motivated by recent results in voxel-based novel view synthesis, we investigate
the utility of sparse voxel grid representations for fast and 3D-consistent
generative modeling in this paper. Our results demonstrate that monolithic MLPs
can indeed be replaced by 3D convolutions when combining sparse voxel grids
with progressive growing, free space pruning and appropriate regularization. To
obtain a compact representation of the scene and allow for scaling to higher
voxel resolutions, our model disentangles the foreground object (modeled in 3D)
from the background (modeled in 2D). In contrast to existing approaches, our
method requires only a single forward pass to generate a full 3D scene. It
hence allows for efficient rendering from arbitrary viewpoints while yielding
3D consistent results with high visual fidelity.
- Abstract(参考訳): 最先端の3D認識生成モデルは、3Dラディアンス場をパラメータ化するために座標ベースのMLPに依存している。
印象的な結果を示す一方で、各試料ごとにMLPをクエリすると、レンダリングが遅くなります。
したがって、既存のアプローチはしばしば低解像度の特徴写像をレンダリングし、それらをアップサンプリングネットワークで処理して最終的な画像を得る。
効率は良いが、ニューラルレンダリングは、しばしば視点とコンテンツが絡み合っており、カメラのポーズを変えると、不要な形状や外観の変化が生じる。
本稿では,voxelを用いた新しいビュー合成の最近の結果に動機づけられ,高速かつ3次元一貫性のある生成モデルのためのスパースvoxelグリッド表現の有用性について検討する。
その結果, 不定形mlpは, スパースボクセルグリッドとプログレッシブ成長, フリースペースプルーニング, 適切な正規化を組み合わせた場合, 3次元畳み込みに置き換えられることがわかった。
シーンのコンパクトな表現と,より高いボクセル解像度へのスケーリングを実現するため,本モデルでは,背景(2次元モデル)から前景オブジェクト(3次元モデル)を遠ざけている。
既存の手法とは対照的に,本手法では完全な3Dシーンを生成するために,単一の前方通過しか必要としない。
したがって、任意の視点から効率的なレンダリングを可能にし、高い視覚的忠実度で3D一貫性のある結果が得られる。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。
我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文 参考訳(メタデータ) (2024-05-30T17:59:54Z) - Bridging 3D Gaussian and Mesh for Freeview Video Rendering [57.21847030980905]
GauMeshはダイナミックシーンのモデリングとレンダリングのために3D GaussianとMeshをブリッジする。
提案手法は, 動的シーンの異なる部分を表現するために, プリミティブの適切なタイプに適応することを示す。
論文 参考訳(メタデータ) (2024-03-18T04:01:26Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Learning Naturally Aggregated Appearance for Efficient 3D Editing [94.47518916521065]
カラーフィールドを2次元の鮮明なアグリゲーションに置き換えることを提案する。
歪み効果を回避し、簡便な編集を容易にするため、3Dの点をテクスチャルックアップのために2Dピクセルにマッピングする投影場を標準画像に補完する。
私たちの表現はAGAPと呼ばれ、再最適化を必要とせず、様々な3D編集方法(スタイル化、インタラクティブな描画、コンテンツ抽出など)をうまくサポートしています。
論文 参考訳(メタデータ) (2023-12-11T18:59:31Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - PixelSynth: Generating a 3D-Consistent Experience from a Single Image [30.64117903216323]
本稿では, 自己回帰モデルを用いて3次元推論を融合させ, 大規模視界変化を3次元連続的に表現する手法を提案する。
本研究では,多種多様な方法と可能な変種と比較して,単一画像大角ビュー合成結果の大幅な改善を示す。
論文 参考訳(メタデータ) (2021-08-12T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。