論文の概要: SparseGNV: Generating Novel Views of Indoor Scenes with Sparse Input
Views
- arxiv url: http://arxiv.org/abs/2305.07024v1
- Date: Thu, 11 May 2023 17:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 13:36:51.039256
- Title: SparseGNV: Generating Novel Views of Indoor Scenes with Sparse Input
Views
- Title(参考訳): スパースGNV:スパース入力ビューによる屋内シーンの新しい視点の生成
- Authors: Weihao Cheng, Yan-Pei Cao, Ying Shan
- Abstract要約: SparseGNVは3次元構造と画像生成モデルを組み合わせて新しいビューを生成する学習フレームワークである。
SparseGNVは、大規模な屋内シーンデータセットでトレーニングされ、一般化可能な事前学習を行う。
フィードフォワード方式で、見えない屋内シーンの斬新なビューを効率よく生成することができる。
- 参考スコア(独自算出の注目度): 16.72880076920758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study to generate novel views of indoor scenes given sparse input views.
The challenge is to achieve both photorealism and view consistency. We present
SparseGNV: a learning framework that incorporates 3D structures and image
generative models to generate novel views with three modules. The first module
builds a neural point cloud as underlying geometry, providing contextual
information and guidance for the target novel view. The second module utilizes
a transformer-based network to map the scene context and the guidance into a
shared latent space and autoregressively decodes the target view in the form of
discrete image tokens. The third module reconstructs the tokens into the image
of the target view. SparseGNV is trained across a large indoor scene dataset to
learn generalizable priors. Once trained, it can efficiently generate novel
views of an unseen indoor scene in a feed-forward manner. We evaluate SparseGNV
on both real-world and synthetic indoor scenes and demonstrate that it
outperforms state-of-the-art methods based on either neural radiance fields or
conditional image generation.
- Abstract(参考訳): 本研究では,室内シーンの新たな視点を,少ない入力ビューで生成する。
課題は、フォトリアリズムとビュー一貫性の両方を達成することだ。
SparseGNVは3つのモジュールで新しいビューを生成するために3次元構造と画像生成モデルを組み込んだ学習フレームワークである。
最初のモジュールは、基礎となる幾何学としてニューラルポイントクラウドを構築し、ターゲットの新規ビューのコンテキスト情報とガイダンスを提供する。
第2のモジュールは、トランスフォーマーベースのネットワークを使用して、シーンコンテキストとガイダンスを共有潜在空間にマッピングし、ターゲットビューを離散的なイメージトークン形式で自己回帰的にデコードする。
第3のモジュールはトークンをターゲットビューのイメージに再構成する。
SparseGNVは大規模な屋内シーンデータセットでトレーニングされ、一般化可能な事前学習を行う。
トレーニングが完了すると、フィードフォワード方式で、見えない屋内シーンの新たなビューを効率よく生成することができる。
実世界の屋内シーンと合成室内シーンの両方でSparseGNVを評価し,ニューラルレイディアンスフィールドまたは条件画像生成に基づいて最先端の手法より優れていることを示す。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - ViewFormer: NeRF-free Neural Rendering from Few Images Using
Transformers [34.4824364161812]
新たなビュー合成は、シーンやオブジェクトをスパースにカバーする少数のコンテキストビューしか与えられない、という問題です。
ゴールはシーンにおける新しい視点を予測することであり、これは学習の事前を必要とする。
ニューラルネットワークの単一パスにおいて,複数のコンテキストビューとクエリのポーズを新しい画像にマッピングする2Dのみの手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T21:08:23Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z) - Continuous Object Representation Networks: Novel View Synthesis without
Target View Supervision [26.885846254261626]
連続オブジェクト表現ネットワーク(Continuous Object Representation Networks、CORN)は、入力画像の幾何学と外観を3D一貫したシーン表現にマッピングする条件付きアーキテクチャである。
CORNは、新しいビューの合成やシングルビューの3D再構成、そして直接監督を使用する最先端のアプローチに匹敵するパフォーマンスといった挑戦的なタスクでうまく機能する。
論文 参考訳(メタデータ) (2020-07-30T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。