論文の概要: Generative Multiplane Neural Radiance for 3D-Aware Image Generation
- arxiv url: http://arxiv.org/abs/2304.01172v1
- Date: Mon, 3 Apr 2023 17:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 14:15:30.828120
- Title: Generative Multiplane Neural Radiance for 3D-Aware Image Generation
- Title(参考訳): 3次元認識画像生成のための生成多面ニューラルラミアンス
- Authors: Amandeep Kumar, Ankan Kumar Bhunia, Sanath Narayan, Hisham Cholakkal,
Rao Muhammad Anwer, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan
- Abstract要約: 本稿では,複数のターゲットビューに対して連続した3次元高解像度画像を効率よく生成する手法を提案する。
我々のGMNRモデルは、単一のV100上で17.6FPSの1024×1024ピクセルの3D認識画像を生成する。
- 参考スコア(独自算出の注目度): 102.15322193381617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method to efficiently generate 3D-aware high-resolution images
that are view-consistent across multiple target views. The proposed multiplane
neural radiance model, named GMNR, consists of a novel {\alpha}-guided
view-dependent representation ({\alpha}-VdR) module for learning view-dependent
information. The {\alpha}-VdR module, faciliated by an {\alpha}-guided pixel
sampling technique, computes the view-dependent representation efficiently by
learning viewing direction and position coefficients. Moreover, we propose a
view-consistency loss to enforce photometric similarity across multiple views.
The GMNR model can generate 3D-aware high-resolution images that are
viewconsistent across multiple camera poses, while maintaining the
computational efficiency in terms of both training and inference time.
Experiments on three datasets demonstrate the effectiveness of the proposed
modules, leading to favorable results in terms of both generation quality and
inference time, compared to existing approaches. Our GMNR model generates
3D-aware images of 1024 X 1024 pixels with 17.6 FPS on a single V100. Code :
https://github.com/VIROBO-15/GMNR
- Abstract(参考訳): 本稿では,複数のターゲットビューに対して連続した3次元高解像度画像を効率よく生成する手法を提案する。
GMNRと呼ばれる提案された多面体ニューラルラジアンスモデルは、ビュー依存情報を学習するための新しいビュー依存表現({\alpha}-VdR)モジュールから構成される。
α}-vdr モジュールは {\alpha} で誘導されたピクセルサンプリング技術により実現され、ビュー方向と位置係数を学習することで、ビュー依存表現を効率的に計算する。
さらに、複数のビューにまたがって光度類似性を強制するビュー一貫性損失を提案する。
GMNRモデルは、トレーニング時間と推論時間の両方で計算効率を保ちながら、複数のカメラのポーズに一貫性のある3D対応高解像度画像を生成することができる。
3つのデータセットに関する実験により、提案するモジュールの有効性が示され、既存のアプローチと比較して、生成品質と推論時間の両方において良好な結果が得られた。
我々のGMNRモデルは、単一のV100上で17.6FPSの1024×1024ピクセルの3D認識画像を生成する。
コード:https://github.com/VIROBO-15/GMNR
関連論文リスト
- UniG: Modelling Unitary 3D Gaussians for View-consistent 3D Reconstruction [20.089890859122168]
ビュー一貫性を持つ3次元再構成と新しいビュー合成モデルUniGを提案する。
UniGはスパース画像から3Dガウスの高忠実度表現を生成する。
論文 参考訳(メタデータ) (2024-10-17T03:48:02Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - WidthFormer: Toward Efficient Transformer-based BEV View Transformation [21.10523575080856]
WidthFormerは、リアルタイム自動運転アプリケーションのためのマルチビューカメラからBirdのEye-View(BEV)表現を計算するトランスフォーマーベースのモジュールである。
まず,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
次に,特徴圧縮による潜在的な情報損失を補償する2つのモジュールを開発する。
論文 参考訳(メタデータ) (2024-01-08T11:50:23Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - A Novel Patch Convolutional Neural Network for View-based 3D Model
Retrieval [36.12906920608775]
ビューベース3次元モデル検索のための新しいパッチ畳み込みニューラルネットワーク(PCNN)を提案する。
提案したPCNNは, それぞれ93.67%, 96.23%と, 最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-09-25T07:18:23Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。