論文の概要: Attention Aware Cost Volume Pyramid Based Multi-view Stereo Network for
3D Reconstruction
- arxiv url: http://arxiv.org/abs/2011.12722v1
- Date: Wed, 25 Nov 2020 13:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 02:27:41.419955
- Title: Attention Aware Cost Volume Pyramid Based Multi-view Stereo Network for
3D Reconstruction
- Title(参考訳): 3次元再構成のための注意意識型コストボリュームピラミッドベースマルチビューステレオネットワーク
- Authors: Anzhu Yu, Wenyue Guo, Bing Liu, Xin Chen, Xin Wang, Xuefeng Cao,
Bingchuan Jiang
- Abstract要約: マルチビュー画像から3次元再構成を行うための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
高分解能深度を実現するために粗粒度深度推論戦略を導入する。
- 参考スコア(独自算出の注目度): 12.728154351588053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an efficient multi-view stereo (MVS) network for 3D reconstruction
from multiview images. While previous learning based reconstruction approaches
performed quite well, most of them estimate depth maps at a fixed resolution
using plane sweep volumes with a fixed depth hypothesis at each plane, which
requires densely sampled planes for desired accuracy and therefore is difficult
to achieve high resolution depth maps. In this paper we introduce a
coarseto-fine depth inference strategy to achieve high resolution depth. This
strategy estimates the depth map at coarsest level, while the depth maps at
finer levels are considered as the upsampled depth map from previous level with
pixel-wise depth residual. Thus, we narrow the depth searching range with
priori information from previous level and construct new cost volumes from the
pixel-wise depth residual to perform depth map refinement. Then the final depth
map could be achieved iteratively since all the parameters are shared between
different levels. At each level, the self-attention layer is introduced to the
feature extraction block for capturing the long range dependencies for depth
inference task, and the cost volume is generated using similarity measurement
instead of the variance based methods used in previous work. Experiments were
conducted on both the DTU benchmark dataset and recently released BlendedMVS
dataset. The results demonstrated that our model could outperform most
state-of-the-arts (SOTA) methods. The codebase of this project is at
https://github.com/ArthasMil/AACVP-MVSNet.
- Abstract(参考訳): マルチビュー画像から3次元再構成を行うための効率的なマルチビューステレオネットワークを提案する。
従来の学習に基づく再構成手法はかなりうまく行ったが、そのほとんどは平面の深度仮説を固定した平面スイープ体積を用いて固定解像度で深度マップを推定しており、これは所望の精度で高解像度の深度マップを作成できない。
本稿では,高分解能深度を実現するための粗粒度推定手法を提案する。
この戦略は粗いレベルでの深度マップを推定する一方、より細かいレベルでの深度マップは、ピクセルワイドの深度残差を持つ前のレベルからのアップサンプリングされた深度マップとみなす。
そこで,我々は,事前情報による深度探索範囲を狭め,画素単位の深度残差から新たなコストボリュームを構築し,深度マップの改良を行う。
そして、全てのパラメータが異なるレベル間で共有されるので、最終深度マップを反復的に達成することができる。
各レベルにおいて、奥行き推定タスクの長距離依存性をキャプチャする特徴抽出ブロックに自己注意層を導入し、従来の作業で用いた分散法の代わりに類似度測定を用いてコストボリュームを生成する。
DTUベンチマークデータセットと最近リリースされたBlendedMVSデータセットの両方で実験が行われた。
その結果,我々のモデルは最先端技術(SOTA)の手法よりも優れていることがわかった。
このプロジェクトのコードベースはhttps://github.com/ArthasMil/AACVP-MVSNetにある。
関連論文リスト
- Refinement of Monocular Depth Maps via Multi-View Differentiable Rendering [4.717325308876748]
本稿では,複数の画像から一貫した詳細な深度マップを生成するための新しい手法を提案する。
我々は、位相的に完全だが計量的に不正確な深度マップを生成する単眼深度推定の進歩を活用する。
提案手法は,高密度で詳細で高品質な深度マップを作成でき,また屋内シナリオの挑戦も可能であり,最先端の深度復元手法よりも優れている。
論文 参考訳(メタデータ) (2024-10-04T18:50:28Z) - ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。
適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文 参考訳(メタデータ) (2023-08-17T14:52:11Z) - Non-parametric Depth Distribution Modelling based Depth Inference for
Multi-view Stereo [43.415242967722804]
最近のコストボリュームピラミッドに基づくディープニューラルネットワークは、多視点ステレオからの深度推論に高解像度の画像を効率的に活用する可能性を解き放った。
一般に、これらのアプローチは各ピクセルの深さが一様分布に従うと仮定する。
本研究では,非パラメトリック深度分布モデルを用いて,一様および多モード分布の画素を扱うコストボリュームを構築することを提案する。
論文 参考訳(メタデータ) (2022-05-08T05:13:04Z) - A Confidence-based Iterative Solver of Depths and Surface Normals for
Deep Multi-view Stereo [41.527018997251744]
本研究では,深度,表面正規度,視野ごとの信頼度を共同で予測する深層多視点ステレオ(MVS)システムを提案する。
我々のアプローチの鍵は、ビューごとの深度マップと正規写像に対して反復的に解決する新しい解法である。
提案手法は,従来型および深層学習に基づくMVSパイプラインの深部品質を継続的に向上する。
論文 参考訳(メタデータ) (2022-01-19T14:08:45Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - Depth Completion using Plane-Residual Representation [84.63079529738924]
深度情報を最も近い深度平面ラベル$p$と残値$r$で解釈する新しい方法を紹介し,これをPlane-Residual (PR)表現と呼ぶ。
PR表現で深度情報を解釈し,それに対応する深度補完網を用いて,高速な計算により深度補完性能を向上させることができた。
論文 参考訳(メタデータ) (2021-04-15T10:17:53Z) - Efficient Depth Completion Using Learned Bases [94.0808155168311]
深度補正のための新しい大域的幾何制約を提案する。
低次元部分空間上によく配置される深さ写像を仮定することにより、高密度深度写像は全解像度の主深度基底の重み付け和で近似することができる。
論文 参考訳(メタデータ) (2020-12-02T11:57:37Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z) - Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。
この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。
我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文 参考訳(メタデータ) (2020-01-21T21:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。