論文の概要: Non-parametric Depth Distribution Modelling based Depth Inference for
Multi-view Stereo
- arxiv url: http://arxiv.org/abs/2205.03783v1
- Date: Sun, 8 May 2022 05:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 15:50:07.745567
- Title: Non-parametric Depth Distribution Modelling based Depth Inference for
Multi-view Stereo
- Title(参考訳): 多視点ステレオの非パラメトリック深さ分布モデリングに基づく深さ推定
- Authors: Jiayu Yang, Jose M. Alvarez, Miaomiao Liu
- Abstract要約: 最近のコストボリュームピラミッドに基づくディープニューラルネットワークは、多視点ステレオからの深度推論に高解像度の画像を効率的に活用する可能性を解き放った。
一般に、これらのアプローチは各ピクセルの深さが一様分布に従うと仮定する。
本研究では,非パラメトリック深度分布モデルを用いて,一様および多モード分布の画素を扱うコストボリュームを構築することを提案する。
- 参考スコア(独自算出の注目度): 43.415242967722804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent cost volume pyramid based deep neural networks have unlocked the
potential of efficiently leveraging high-resolution images for depth inference
from multi-view stereo. In general, those approaches assume that the depth of
each pixel follows a unimodal distribution. Boundary pixels usually follow a
multi-modal distribution as they represent different depths; Therefore, the
assumption results in an erroneous depth prediction at the coarser level of the
cost volume pyramid and can not be corrected in the refinement levels leading
to wrong depth predictions. In contrast, we propose constructing the cost
volume by non-parametric depth distribution modeling to handle pixels with
unimodal and multi-modal distributions. Our approach outputs multiple depth
hypotheses at the coarser level to avoid errors in the early stage. As we
perform local search around these multiple hypotheses in subsequent levels, our
approach does not maintain the rigid depth spatial ordering and, therefore, we
introduce a sparse cost aggregation network to derive information within each
volume. We evaluate our approach extensively on two benchmark datasets: DTU and
Tanks & Temples. Our experimental results show that our model outperforms
existing methods by a large margin and achieves superior performance on
boundary regions. Code is available at https://github.com/NVlabs/NP-CVP-MVSNet
- Abstract(参考訳): 最近のコストボリュームピラミッドに基づくディープニューラルネットワークは、多視点ステレオからの深度推論に高解像度画像を効率的に活用する可能性を解き放った。
一般に、これらのアプローチは各ピクセルの深さが一様分布に従うと仮定する。
境界画素は通常、異なる深さを表すためにマルチモーダル分布に従うため、この仮定はコスト体積ピラミッドの粗いレベルで誤った深さ予測を生じさせ、誤った深さ予測につながる改善レベルでは修正できない。
対照的に,非パラメトリックな深度分布モデルを用いて,一様および多モード分布の画素を扱うコストボリュームを構築することを提案する。
提案手法は,初期誤差を避けるために,粗いレベルで複数の深度仮説を出力する。
これらの複数の仮説を後続のレベルで局所的に探索するため、我々は厳密な深度空間秩序を保たず、各体積の情報を導出するための疎コスト集約ネットワークを導入する。
DTU と Tanks & Temples の2つのベンチマークデータセットに対して,我々のアプローチを広範囲に評価した。
実験の結果,提案手法は既存の手法を大差で上回り,境界領域において優れた性能が得られることがわかった。
コードはhttps://github.com/NVlabs/NP-CVP-MVSNetで入手できる。
関連論文リスト
- Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - Progressive Depth Decoupling and Modulating for Flexible Depth Completion [28.693100885012008]
画像誘導深度補正は、疎LiDARデータとRGB画像から高密度深度マップを生成することを目的としている。
近年の手法では,2つのサブタスク(深度離散化と確率予測)で分類問題として再検討し,有望な性能を示した。
本研究では, 深度範囲をビンに漸進的に分離し, マルチスケールの深度マップを適応的に生成するプログレッシブ・ディープ・デカップリング・変調ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-15T13:45:33Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - DiffusionDepth: Diffusion Denoising Approach for Monocular Depth
Estimation [23.22005119986485]
DiffusionDepthは、単分子深度推定をデノナイズ拡散過程として再構成する新しいアプローチである。
ランダムな深度分布をモノラルな視覚条件のガイダンスで深度マップに分解する反復的復調過程を学習する。
KITTIとNYU-Depth-V2データセットの実験結果は、シンプルだが効率的な拡散アプローチが、許容可能な推論時間を持つ屋内および屋外の両方のシナリオで最先端のパフォーマンスに達することを示唆している。
論文 参考訳(メタデータ) (2023-03-09T03:48:24Z) - A Confidence-based Iterative Solver of Depths and Surface Normals for
Deep Multi-view Stereo [41.527018997251744]
本研究では,深度,表面正規度,視野ごとの信頼度を共同で予測する深層多視点ステレオ(MVS)システムを提案する。
我々のアプローチの鍵は、ビューごとの深度マップと正規写像に対して反復的に解決する新しい解法である。
提案手法は,従来型および深層学習に基づくMVSパイプラインの深部品質を継続的に向上する。
論文 参考訳(メタデータ) (2022-01-19T14:08:45Z) - DDR-Net: Learning Multi-Stage Multi-View Stereo With Dynamic Depth Range [2.081393321765571]
深度範囲の仮説を動的に決定するための動的深さ範囲ネットワーク(DDR-Net)を提案する。
DDR-Netでは、まず、深度範囲全体にわたる画像の最も粗い解像度で初期深度マップを構築します。
学習した動的深度範囲を利用して、洗練された深度マップを生成する新しい損失戦略を開発します。
論文 参考訳(メタデータ) (2021-03-26T05:52:38Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Direct Depth Learning Network for Stereo Matching [79.3665881702387]
ステレオマッチングのための新しいダイレクトディープス学習ネットワーク(DDL-Net)が設計されている。
DDL-Netは、粗度推定段階と適応勾配深度補正段階の2段階からなる。
我々は,DDL-NetがSceneFlowデータセットで25%,DrivingStereoデータセットで12%の平均的な改善を実現していることを示す。
論文 参考訳(メタデータ) (2020-12-10T10:33:57Z) - Attention Aware Cost Volume Pyramid Based Multi-view Stereo Network for
3D Reconstruction [12.728154351588053]
マルチビュー画像から3次元再構成を行うための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
高分解能深度を実現するために粗粒度深度推論戦略を導入する。
論文 参考訳(メタデータ) (2020-11-25T13:34:11Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。