論文の概要: Learning Neural Implicit through Volume Rendering with Attentive Depth
Fusion Priors
- arxiv url: http://arxiv.org/abs/2310.11598v2
- Date: Mon, 8 Jan 2024 03:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 22:34:04.962525
- Title: Learning Neural Implicit through Volume Rendering with Attentive Depth
Fusion Priors
- Title(参考訳): 注意深核融合前処理によるボリュームレンダリングによる暗黙的学習
- Authors: Pengchong Hu, Zhizhong Han
- Abstract要約: 我々は,多視点RGBD画像からの暗黙的表現を,暗黙的深度融合によるボリュームレンダリングにより学習する。
注意機構は、シーン全体を表す1回溶融TSDFか、部分シーンを表す漸増溶融TSDFで機能する。
合成および実世界のスキャンを含む広く使われているベンチマークの評価は、最新のニューラル暗黙法よりも優れていることを示している。
- 参考スコア(独自算出の注目度): 32.63878457242185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning neural implicit representations has achieved remarkable performance
in 3D reconstruction from multi-view images. Current methods use volume
rendering to render implicit representations into either RGB or depth images
that are supervised by multi-view ground truth. However, rendering a view each
time suffers from incomplete depth at holes and unawareness of occluded
structures from the depth supervision, which severely affects the accuracy of
geometry inference via volume rendering. To resolve this issue, we propose to
learn neural implicit representations from multi-view RGBD images through
volume rendering with an attentive depth fusion prior. Our prior allows neural
networks to perceive coarse 3D structures from the Truncated Signed Distance
Function (TSDF) fused from all depth images available for rendering. The TSDF
enables accessing the missing depth at holes on one depth image and the
occluded parts that are invisible from the current view. By introducing a novel
attention mechanism, we allow neural networks to directly use the depth fusion
prior with the inferred occupancy as the learned implicit function. Our
attention mechanism works with either a one-time fused TSDF that represents a
whole scene or an incrementally fused TSDF that represents a partial scene in
the context of Simultaneous Localization and Mapping (SLAM). Our evaluations on
widely used benchmarks including synthetic and real-world scans show our
superiority over the latest neural implicit methods. Project page:
https://machineperceptionlab.github.io/Attentive_DF_Prior/
- Abstract(参考訳): ニューラル暗示表現の学習は、多視点画像から3次元再構成において顕著な性能を達成した。
現在の手法では、ボリュームレンダリングを使用して、暗黙の表現をRGBまたは深度画像にレンダリングする。
しかし、毎回ビューのレンダリングは、穴の深さが不完全なことと、奥行きの監督から隠蔽された構造の無意識に悩まされ、ボリュームレンダリングによる幾何学的推論の精度に深刻な影響を及ぼす。
そこで本研究では,複数視点のRGBD画像からの暗黙表現を,暗黙的深度融合によるボリュームレンダリングにより学習することを提案する。
従来のニューラルネットワークでは,全深度画像から抽出したtsdf(truncated signed distance function)から粗い3d構造を認識できた。
TSDFは、ある深度画像の穴と現在の視界から見えない閉塞された部分へのアクセスを可能にする。
新たな注意機構を導入することで、ニューラルネットワークは学習された暗黙の関数として、推論された占有度に先立って直接深度融合を使用できる。
注意機構は,シーン全体を表す1回の融合tsdfと,同時局在マッピング(slam)の文脈で部分的なシーンを表すインクリメンタルに融合したtsdfのいずれかで動作する。
合成および実世界のスキャンを含む広く使われているベンチマークの評価は、最新のニューラル暗黙法よりも優れていることを示している。
プロジェクトページ: https://machineperceptionlab.github.io/attentive_df_prior/
関連論文リスト
- Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - A Two-Stage Masked Autoencoder Based Network for Indoor Depth Completion [10.519644854849098]
室内深度補完のための2段階トランスフォーマーネットワークを提案する。
提案するネットワークは,Matterport3Dデータセット上での最先端性能を実現する。
また, 深度完了作業の重要性を検証するため, 室内3次元再構成に本手法を適用した。
論文 参考訳(メタデータ) (2024-06-14T07:42:27Z) - Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images [11.100398985633754]
両手で高密度メッシュを復元するためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはResNet50とPointNet++を使って、RGBとpoint cloudから機能を派生しています。
また,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) も導入した。
論文 参考訳(メタデータ) (2023-07-12T09:33:21Z) - Multi-Plane Neural Radiance Fields for Novel View Synthesis [5.478764356647437]
新しいビュー合成は、新しいカメラの視点からシーンのフレームを描画する、長年にわたる問題である。
本研究では, 単面多面体ニューラル放射場の性能, 一般化, 効率について検討する。
合成結果の改善と視聴範囲の拡大のために,複数のビューを受理する新しい多面体NeRFアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-03T06:32:55Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Light Field Networks: Neural Scene Representations with
Single-Evaluation Rendering [60.02806355570514]
2次元観察から3Dシーンの表現を推定することは、コンピュータグラフィックス、コンピュータビジョン、人工知能の基本的な問題である。
そこで我々は,360度4次元光場における基礎となる3次元シーンの形状と外観の両面を表現した新しいニューラルシーン表現,光場ネットワーク(LFN)を提案する。
LFNからレイをレンダリングするには*single*ネットワークの評価しか必要としない。
論文 参考訳(メタデータ) (2021-06-04T17:54:49Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - NeuralFusion: Online Depth Fusion in Latent Space [77.59420353185355]
潜在特徴空間における深度マップアグリゲーションを学習する新しいオンライン深度マップ融合手法を提案する。
提案手法は,高騒音レベルを処理し,特に測光ステレオベース深度マップに共通する粗悪なアウトレージに対処できる。
論文 参考訳(メタデータ) (2020-11-30T13:50:59Z) - Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。
この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。
我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文 参考訳(メタデータ) (2020-01-21T21:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。