論文の概要: Behind the Scenes: Density Fields for Single View Reconstruction
- arxiv url: http://arxiv.org/abs/2301.07668v1
- Date: Wed, 18 Jan 2023 17:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 15:16:14.755832
- Title: Behind the Scenes: Density Fields for Single View Reconstruction
- Title(参考訳): 舞台裏:単一視点再構成のための密度場
- Authors: Felix Wimbauer, Nan Yang, Christian Rupprecht, Daniel Cremers
- Abstract要約: 本稿では,1つの画像から暗黙の密度場を予測するニューラルネットワークを提案する。
我々のネットワークは、ビデオデータのみから自己監督によって訓練することができる。
提案手法は,入力画像に隠された領域に対して有意な幾何を予測できることを示す。
- 参考スコア(独自算出の注目度): 63.40484647325238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inferring a meaningful geometric scene representation from a single image is
a fundamental problem in computer vision. Approaches based on traditional depth
map prediction can only reason about areas that are visible in the image.
Currently, neural radiance fields (NeRFs) can capture true 3D including color
but are too complex to be generated from a single image. As an alternative, we
introduce a neural network that predicts an implicit density field from a
single image. It maps every location in the frustum of the image to volumetric
density. Our network can be trained through self-supervision from only video
data. By not storing color in the implicit volume, but directly sampling color
from the available views during training, our scene representation becomes
significantly less complex compared to NeRFs, and we can train neural networks
to predict it. Thus, we can apply volume rendering to perform both depth
prediction and novel view synthesis. In our experiments, we show that our
method is able to predict meaningful geometry for regions that are occluded in
the input image. Additionally, we demonstrate the potential of our approach on
three datasets for depth prediction and novel-view synthesis.
- Abstract(参考訳): 単一の画像から有意義な幾何学的シーン表現を推測することは、コンピュータビジョンにおける根本的な問題である。
従来の深度マップ予測に基づくアプローチは、画像で見える領域のみを推論できる。
現在、neural radiance field(nerfs)はカラーを含む真の3dをキャプチャできるが、単一の画像から生成するには複雑すぎる。
その代替として,単一の画像から暗黙の密度場を予測するニューラルネットワークを提案する。
画像のフラストラム内のすべての位置を体積密度にマッピングする。
我々のネットワークはビデオデータのみから自己監督によって訓練することができる。
暗黙のボリュームに色を保存せず、トレーニング中に利用可能なビューから直接色をサンプリングすることで、私たちのシーン表現はNeRFに比べてかなり複雑になり、ニューラルネットワークをトレーニングして予測することができます。
したがって、深度予測と新しいビュー合成の両方を行うためにボリュームレンダリングを適用することができる。
本実験では,入力画像にオクルードされた領域に対して有意な形状を予測できることを示す。
さらに,深度予測と新しい視点合成のための3つのデータセットに対するアプローチの可能性を示す。
関連論文リスト
- Boosting Self-Supervision for Single-View Scene Completion via Knowledge Distillation [39.08243715525956]
Structure from Motionを通して画像からシーン幾何学を推定することは、コンピュータビジョンにおける長年の根本的問題である。
ニューラルレイディアンス場(NeRF)の人気が高まり、暗黙の表現もシーン完了のために人気になった。
本稿では,複数の画像からシーン再構成を融合させ,その知識をより正確な単一視点のシーン再構成に変換することを提案する。
論文 参考訳(メタデータ) (2024-04-11T17:30:24Z) - Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning [119.99066522299309]
KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。
その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。
我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:59Z) - Learning Neural Implicit through Volume Rendering with Attentive Depth
Fusion Priors [32.63878457242185]
我々は,多視点RGBD画像からの暗黙的表現を,暗黙的深度融合によるボリュームレンダリングにより学習する。
注意機構は、シーン全体を表す1回溶融TSDFか、部分シーンを表す漸増溶融TSDFで機能する。
合成および実世界のスキャンを含む広く使われているベンチマークの評価は、最新のニューラル暗黙法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-10-17T21:45:51Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - S$^3$-NeRF: Neural Reflectance Field from Shading and Shadow under a
Single Viewpoint [22.42916940712357]
本手法は,シーンの3次元形状とBRDFを表現するために,ニューラルリフレクタンス場を学習する。
本手法は,一視点画像からシーンの可視部分と可視部分の両方を含む3次元形状を復元することができる。
新規ビュー合成やリライトといったアプリケーションをサポートする。
論文 参考訳(メタデータ) (2022-10-17T11:01:52Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Light Field Networks: Neural Scene Representations with
Single-Evaluation Rendering [60.02806355570514]
2次元観察から3Dシーンの表現を推定することは、コンピュータグラフィックス、コンピュータビジョン、人工知能の基本的な問題である。
そこで我々は,360度4次元光場における基礎となる3次元シーンの形状と外観の両面を表現した新しいニューラルシーン表現,光場ネットワーク(LFN)を提案する。
LFNからレイをレンダリングするには*single*ネットワークの評価しか必要としない。
論文 参考訳(メタデータ) (2021-06-04T17:54:49Z) - NeMI: Unifying Neural Radiance Fields with Multiplane Images for Novel
View Synthesis [69.19261797333635]
単一画像からの高密度3次元再構成による新しいビュー合成と深度推定を行う手法を提案する。
我々のNeMIはマルチプレーン画像(MPI)とニューラル放射場(NeRF)を統一する
iBims-1およびNYU-v2の深さ推定でも、注釈付き深度監視なしで競争力のある結果が得られます。
論文 参考訳(メタデータ) (2021-03-27T13:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。