論文の概要: Stereo Radiance Fields (SRF): Learning View Synthesis for Sparse Views
of Novel Scenes
- arxiv url: http://arxiv.org/abs/2104.06935v1
- Date: Wed, 14 Apr 2021 15:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:30:38.883273
- Title: Stereo Radiance Fields (SRF): Learning View Synthesis for Sparse Views
of Novel Scenes
- Title(参考訳): ステレオラジアンス場(SRF):新しいシーンのスパースビューのための学習ビュー合成
- Authors: Julian Chibane, Aayush Bansal, Verica Lazova, Gerard Pons-Moll
- Abstract要約: SRF(Stereo Radiance Fields)は、エンドツーエンドで訓練されたニューラルビュー合成手法である。
SRFは新しいシーンに一般化し、テスト時にスパースビューしか必要としない。
実験の結果、SRFはシーンに過度に収まるのではなく構造を学ぶことがわかった。
- 参考スコア(独自算出の注目度): 48.0304999503795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent neural view synthesis methods have achieved impressive quality and
realism, surpassing classical pipelines which rely on multi-view
reconstruction. State-of-the-Art methods, such as NeRF, are designed to learn a
single scene with a neural network and require dense multi-view inputs. Testing
on a new scene requires re-training from scratch, which takes 2-3 days. In this
work, we introduce Stereo Radiance Fields (SRF), a neural view synthesis
approach that is trained end-to-end, generalizes to new scenes, and requires
only sparse views at test time. The core idea is a neural architecture inspired
by classical multi-view stereo methods, which estimates surface points by
finding similar image regions in stereo images. In SRF, we predict color and
density for each 3D point given an encoding of its stereo correspondence in the
input images. The encoding is implicitly learned by an ensemble of pair-wise
similarities -- emulating classical stereo. Experiments show that SRF learns
structure instead of overfitting on a scene. We train on multiple scenes of the
DTU dataset and generalize to new ones without re-training, requiring only 10
sparse and spread-out views as input. We show that 10-15 minutes of fine-tuning
further improve the results, achieving significantly sharper, more detailed
results than scene-specific models. The code, model, and videos are available
at https://virtualhumans.mpi-inf.mpg.de/srf/.
- Abstract(参考訳): 最近のニューラルビュー合成法は、マルチビュー再構成に依存する古典的なパイプラインを超越し、印象的な品質とリアリズムを達成した。
NeRFのような最先端の手法は、ニューラルネットワークで単一のシーンを学習し、密集したマルチビュー入力を必要とするように設計されている。
新しいシーンでテストするには、スクラッチから再トレーニングする必要があります。
本研究では,Stereo Radiance Fields (SRF)を紹介した。これは,エンドツーエンドにトレーニングされたニューラルビュー合成アプローチで,新しいシーンに一般化し,テスト時にスパースビューしか必要としない。
コアとなるアイデアは、古典的なマルチビューステレオ法にインスパイアされたニューラルアーキテクチャであり、ステレオ画像に類似した画像領域を見つけることで表面ポイントを推定する。
SRFでは,入力画像中のステレオ対応を符号化した3次元点ごとに色と密度を推定する。
エンコーディングは、古典ステレオを模倣するペアワイズ類似性のアンサンブルによって暗黙的に学習される。
実験では、SRFはシーンに過度に収まるのではなく構造を学ぶ。
DTUデータセットの複数のシーンをトレーニングし、再トレーニングせずに新しいシーンに一般化する。
10~15分間の微調整により結果がさらに改善し,シーン特化モデルよりもはるかにシャープで詳細な結果が得られた。
コード、モデル、ビデオはhttps://virtualhumans.mpi-inf.mpg.de/srf/で入手できる。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - 3D Reconstruction with Generalizable Neural Fields using Scene Priors [71.37871576124789]
シーンプライオリティ(NFP)を取り入れたトレーニング一般化型ニューラルフィールドを提案する。
NFPネットワークは、任意のシングルビューRGB-D画像を符号付き距離と放射値にマッピングする。
融合モジュールを外した体積空間内の個々のフレームをマージすることにより、完全なシーンを再構築することができる。
論文 参考訳(メタデータ) (2023-09-26T18:01:02Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Remote Sensing Novel View Synthesis with Implicit Multiplane
Representations [26.33490094119609]
暗黙的ニューラル表現の最近の進歩を活用して,新しいリモートセンシングビュー合成法を提案する。
リモートセンシング画像のオーバーヘッドと遠距離イメージングを考慮し,暗黙のマルチプレーン画像(MPI)表現とディープニューラルネットワークを組み合わせることで,3次元空間を表現する。
任意の新規ビューの画像は、再構成されたモデルに基づいて自由にレンダリングすることができる。
論文 参考訳(メタデータ) (2022-05-18T13:03:55Z) - ViewFormer: NeRF-free Neural Rendering from Few Images Using
Transformers [34.4824364161812]
新たなビュー合成は、シーンやオブジェクトをスパースにカバーする少数のコンテキストビューしか与えられない、という問題です。
ゴールはシーンにおける新しい視点を予測することであり、これは学習の事前を必要とする。
ニューラルネットワークの単一パスにおいて,複数のコンテキストビューとクエリのポーズを新しい画像にマッピングする2Dのみの手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T21:08:23Z) - NeuralMVS: Bridging Multi-View Stereo and Novel View Synthesis [28.83180559337126]
本稿では,高解像度カラー画像とともに,距離関数として3次元シーン形状を復元できる新しいネットワークを提案する。
提案手法では,スパース画像のみを入力として使用し,新規なシーンによく対応できる。
論文 参考訳(メタデータ) (2021-08-09T08:59:24Z) - Neural Rays for Occlusion-aware Image-based Rendering [108.34004858785896]
我々は,ニューラルレイ(NeuRay)と呼ばれるニューラル表現を,マルチビューイメージを入力として,新しいビュー合成(NVS)タスクのために提案する。
NeuRayは、微調整の少ない未確認シーンの高品質なノベルビューレンダリング画像を生成することができる。
論文 参考訳(メタデータ) (2021-07-28T15:09:40Z) - Neural Body: Implicit Neural Representations with Structured Latent
Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。
異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。
ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-31T18:55:38Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。