論文の概要: ViewFormer: NeRF-free Neural Rendering from Few Images Using
Transformers
- arxiv url: http://arxiv.org/abs/2203.10157v1
- Date: Fri, 18 Mar 2022 21:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 15:02:53.564224
- Title: ViewFormer: NeRF-free Neural Rendering from Few Images Using
Transformers
- Title(参考訳): ViewFormer: トランスフォーマーを用いた少数の画像からのNeRFのないニューラルレンダリング
- Authors: Jon\'a\v{s} Kulh\'anek and Erik Derner and Torsten Sattler and Robert
Babu\v{s}ka
- Abstract要約: 新たなビュー合成は、シーンやオブジェクトをスパースにカバーする少数のコンテキストビューしか与えられない、という問題です。
ゴールはシーンにおける新しい視点を予測することであり、これは学習の事前を必要とする。
ニューラルネットワークの単一パスにおいて,複数のコンテキストビューとクエリのポーズを新しい画像にマッピングする2Dのみの手法を提案する。
- 参考スコア(独自算出の注目度): 34.4824364161812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel view synthesis is a long-standing problem. In this work, we consider a
variant of the problem where we are given only a few context views sparsely
covering a scene or an object. The goal is to predict novel viewpoints in the
scene, which requires learning priors. The current state of the art is based on
Neural Radiance Fields (NeRFs), and while achieving impressive results, the
methods suffer from long training times as they require evaluating thousands of
3D point samples via a deep neural network for each image. We propose a 2D-only
method that maps multiple context views and a query pose to a new image in a
single pass of a neural network. Our model uses a two-stage architecture
consisting of a codebook and a transformer model. The codebook is used to embed
individual images into a smaller latent space, and the transformer solves the
view synthesis task in this more compact space. To train our model efficiently,
we introduce a novel branching attention mechanism that allows us to use the
same model not only for neural rendering but also for camera pose estimation.
Experimental results on real-world scenes show that our approach is competitive
compared to NeRF-based methods while not reasoning in 3D, and it is faster to
train.
- Abstract(参考訳): 新しいビュー合成は長年の問題である。
本研究では,シーンやオブジェクトをまばらにカバーする,いくつかのコンテキストビューしか与えられていない問題の変種について考察する。
目標は、学習の優先順位を必要とするシーンで、新しい視点を予測することである。
この技術の現状はNeural Radiance Fields(NeRF)に基づいており、印象的な結果を得る一方で、各画像のディープニューラルネットワークを介して何千もの3Dポイントサンプルを評価する必要があるため、長いトレーニング時間に悩まされている。
ニューラルネットワークの単一パスにおいて,複数のコンテキストビューとクエリのポーズを新しい画像にマッピングする2Dのみの手法を提案する。
我々のモデルは、コードブックとトランスフォーマーモデルからなる2段階アーキテクチャを使用する。
コードブックは個々の画像を小さな潜在空間に埋め込むのに使われ、変換器はこのよりコンパクトな空間でビュー合成タスクを解く。
モデルを効率的にトレーニングするために、ニューラルネットワークのレンダリングだけでなく、カメラのポーズ推定にも、同じモデルを使用できる新しい分岐注意機構を導入しました。
実世界のシーンにおける実験結果から,提案手法はNeRF法と競合するが,3次元の推論は行わず,訓練の高速化が期待できる。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - A Comparison of Tiny-nerf versus Spatial Representations for 3d
Reconstruction [0.0]
我々は,小型NeRFと呼ばれるトレンドのニューラルネットワークレンダリングと,ロボット工学の地図として一般的に使用される他のボリューム表現との比較を行う。
実験により、小さなNeRFは他の表現の3倍のメモリスペースを必要とすることが示された。
処理時間の面では、小さなNeRFはモデルを計算するのに約6倍の時間を要する。
論文 参考訳(メタデータ) (2023-01-27T03:55:36Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Stereo Radiance Fields (SRF): Learning View Synthesis for Sparse Views
of Novel Scenes [48.0304999503795]
SRF(Stereo Radiance Fields)は、エンドツーエンドで訓練されたニューラルビュー合成手法である。
SRFは新しいシーンに一般化し、テスト時にスパースビューしか必要としない。
実験の結果、SRFはシーンに過度に収まるのではなく構造を学ぶことがわかった。
論文 参考訳(メタデータ) (2021-04-14T15:38:57Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z) - Continuous Object Representation Networks: Novel View Synthesis without
Target View Supervision [26.885846254261626]
連続オブジェクト表現ネットワーク(Continuous Object Representation Networks、CORN)は、入力画像の幾何学と外観を3D一貫したシーン表現にマッピングする条件付きアーキテクチャである。
CORNは、新しいビューの合成やシングルビューの3D再構成、そして直接監督を使用する最先端のアプローチに匹敵するパフォーマンスといった挑戦的なタスクでうまく機能する。
論文 参考訳(メタデータ) (2020-07-30T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。