論文の概要: ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval
- arxiv url: http://arxiv.org/abs/2308.09022v1
- Date: Thu, 17 Aug 2023 14:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 16:25:41.222908
- Title: ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval
- Title(参考訳): ARAI-MVSNet:適応深度範囲と深度間隔を有する多視点ステレオ深度推定ネットワーク
- Authors: Song Zhang, Wenjia Xu, Zhiwei Wei, Lili Zhang, Yang Wang, Junyi Liu
- Abstract要約: マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。
適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
- 参考スコア(独自算出の注目度): 19.28042366225802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-View Stereo~(MVS) is a fundamental problem in geometric computer vision
which aims to reconstruct a scene using multi-view images with known camera
parameters. However, the mainstream approaches represent the scene with a fixed
all-pixel depth range and equal depth interval partition, which will result in
inadequate utilization of depth planes and imprecise depth estimation. In this
paper, we present a novel multi-stage coarse-to-fine framework to achieve
adaptive all-pixel depth range and depth interval. We predict a coarse depth
map in the first stage, then an Adaptive Depth Range Prediction module is
proposed in the second stage to zoom in the scene by leveraging the reference
image and the obtained depth map in the first stage and predict a more accurate
all-pixel depth range for the following stages. In the third and fourth stages,
we propose an Adaptive Depth Interval Adjustment module to achieve adaptive
variable interval partition for pixel-wise depth range. The depth interval
distribution in this module is normalized by Z-score, which can allocate dense
depth hypothesis planes around the potential ground truth depth value and vice
versa to achieve more accurate depth estimation. Extensive experiments on four
widely used benchmark datasets~(DTU, TnT, BlendedMVS, ETH 3D) demonstrate that
our model achieves state-of-the-art performance and yields competitive
generalization ability. Particularly, our method achieves the highest Acc and
Overall on the DTU dataset, while attaining the highest Recall and
$F_{1}$-score on the Tanks and Temples intermediate and advanced dataset.
Moreover, our method also achieves the lowest $e_{1}$ and $e_{3}$ on the
BlendedMVS dataset and the highest Acc and $F_{1}$-score on the ETH 3D dataset,
surpassing all listed methods.Project website:
https://github.com/zs670980918/ARAI-MVSNet
- Abstract(参考訳): Multi-View Stereo~(MVS)は幾何学的コンピュータビジョンの基本的な問題であり、カメラパラメータが既知のマルチビュー画像を用いてシーンを再構成することを目的としている。
しかし、主流のアプローチは、固定された全画素深度範囲と等しい深さ間隔分割を持つシーンを表現するため、深度平面の不適切な利用と不正確な深さ推定につながる。
本稿では,適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
第1段階では粗深マップを予測し、第2段階では適応深度範囲予測モジュールを提案し、第1段階では基準画像と得られた深度マップを利用してシーンをズームし、次の段階ではより正確な全画素深度範囲を予測する。
3段目と4段目では,画素幅幅の可変間隔分割を実現する適応深さ間隔調整モジュールを提案する。
このモジュールの深さ間隔分布はZスコアによって正規化され、これはポテンシャル基底の真深さ値の周りの密度の深い深さ仮説平面を割り当て、その逆もより正確な深さ推定を達成する。
4つのベンチマークデータセット(dtu, tnt, blendedmvs, eth 3d)に関する広範囲な実験により、本モデルが最先端の性能を達成し、競合的一般化能力が得られることを示した。
特に,本手法はDTUデータセット上で最高のAccと総合的なAccを達成し,タンクおよびテンプルにおける最高リコールとF_{1}$-scoreを中間および高度なデータセットで達成する。
さらに、この手法は、blendedmvsデータセット上で最低の$e_{1}$と$e_{3}$、eth 3dデータセット上で最高のaccと$f_{1}$-scoreを達成し、すべてのリストされたメソッドを上回っています。
関連論文リスト
- Constraining Depth Map Geometry for Multi-View Stereo: A Dual-Depth
Approach with Saddle-shaped Depth Cells [23.345139129458122]
同じ深度予測誤差を用いても、異なる深度ジオメトリには大きな性能ギャップがあることが示される。
サドル形状のセルからなる理想的な深度幾何学を導入し, 予測深度マップは地表面を上下に振動する。
また,本手法は,MVSにおける深度幾何学の新たな研究方向を示す。
論文 参考訳(メタデータ) (2023-07-18T11:37:53Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior [133.76192155312182]
本研究では,コプラナー画素からの情報を選択的に活用して予測深度を改善する手法を提案する。
本手法の広範な評価により, 教師付き単分子深度推定法において, 新たな手法の確立が期待できる。
論文 参考訳(メタデータ) (2022-04-05T10:03:52Z) - A Confidence-based Iterative Solver of Depths and Surface Normals for
Deep Multi-view Stereo [41.527018997251744]
本研究では,深度,表面正規度,視野ごとの信頼度を共同で予測する深層多視点ステレオ(MVS)システムを提案する。
我々のアプローチの鍵は、ビューごとの深度マップと正規写像に対して反復的に解決する新しい解法である。
提案手法は,従来型および深層学習に基づくMVSパイプラインの深部品質を継続的に向上する。
論文 参考訳(メタデータ) (2022-01-19T14:08:45Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - DDR-Net: Learning Multi-Stage Multi-View Stereo With Dynamic Depth Range [2.081393321765571]
深度範囲の仮説を動的に決定するための動的深さ範囲ネットワーク(DDR-Net)を提案する。
DDR-Netでは、まず、深度範囲全体にわたる画像の最も粗い解像度で初期深度マップを構築します。
学習した動的深度範囲を利用して、洗練された深度マップを生成する新しい損失戦略を開発します。
論文 参考訳(メタデータ) (2021-03-26T05:52:38Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Attention Aware Cost Volume Pyramid Based Multi-view Stereo Network for
3D Reconstruction [12.728154351588053]
マルチビュー画像から3次元再構成を行うための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
高分解能深度を実現するために粗粒度深度推論戦略を導入する。
論文 参考訳(メタデータ) (2020-11-25T13:34:11Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。