論文の概要: RayMVSNet++: Learning Ray-based 1D Implicit Fields for Accurate
Multi-View Stereo
- arxiv url: http://arxiv.org/abs/2307.10233v1
- Date: Sun, 16 Jul 2023 02:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 16:49:29.505778
- Title: RayMVSNet++: Learning Ray-based 1D Implicit Fields for Accurate
Multi-View Stereo
- Title(参考訳): raymvsnet++: 正確なマルチビューステレオのためのレイベースの1次元暗黙フィールドの学習
- Authors: Yifei Shi, Junhua Xi, Dewen Hu, Zhiping Cai, Kai Xu
- Abstract要約: RayMVSNetは、シーン深度を示すゼロクロスポイントを用いて、各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習する。
RayMVSNet++はScanNetデータセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 21.209964556493368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based multi-view stereo (MVS) has by far centered around 3D
convolution on cost volumes. Due to the high computation and memory consumption
of 3D CNN, the resolution of output depth is often considerably limited.
Different from most existing works dedicated to adaptive refinement of cost
volumes, we opt to directly optimize the depth value along each camera ray,
mimicking the range finding of a laser scanner. This reduces the MVS problem to
ray-based depth optimization which is much more light-weight than full cost
volume optimization. In particular, we propose RayMVSNet which learns
sequential prediction of a 1D implicit field along each camera ray with the
zero-crossing point indicating scene depth. This sequential modeling, conducted
based on transformer features, essentially learns the epipolar line search in
traditional multi-view stereo. We devise a multi-task learning for better
optimization convergence and depth accuracy. We found the monotonicity property
of the SDFs along each ray greatly benefits the depth estimation. Our method
ranks top on both the DTU and the Tanks & Temples datasets over all previous
learning-based methods, achieving an overall reconstruction score of 0.33mm on
DTU and an F-score of 59.48% on Tanks & Temples. It is able to produce
high-quality depth estimation and point cloud reconstruction in challenging
scenarios such as objects/scenes with non-textured surface, severe occlusion,
and highly varying depth range. Further, we propose RayMVSNet++ to enhance
contextual feature aggregation for each ray through designing an attentional
gating unit to select semantically relevant neighboring rays within the local
frustum around that ray. RayMVSNet++ achieves state-of-the-art performance on
the ScanNet dataset. In particular, it attains an AbsRel of 0.058m and produces
accurate results on the two subsets of textureless regions and large depth
variation.
- Abstract(参考訳): 学習ベースのマルチビューステレオ(MVS)は、コストボリュームの3D畳み込みを中心にしている。
3D CNNの高計算とメモリ消費のため、出力深さの解像度は大幅に制限されることが多い。
コストボリュームの適応的改善に特化した既存の作業とは異なり、我々はレーザースキャナのレンジ発見を模倣して、各カメラ線に沿った深さ値を直接最適化する。
これによりmvsの問題は、フルコストのボリューム最適化よりもはるかに軽量なレイベースの深さ最適化に抑えられる。
特に,シーン深度を示すゼロクロスポイントを用いて,各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習するRayMVSNetを提案する。
この逐次モデリングは変圧器の特徴に基づいて行われ、従来のマルチビューステレオのエピポーラ線探索を本質的に学習する。
最適化収束と深度精度向上のためのマルチタスク学習を考案する。
その結果,SDFの単調性は各光線の深度推定に大きく寄与することがわかった。
我々の手法は、DTUとタンク・アンド・テンプルスの双方のデータセットの上位にランクされ、DTUでは0.33mm、タンク・アンド・テンプルでは59.48%となっている。
非テクスチャ表面のオブジェクトやシーン,厳密な閉塞,高度に変化する深度範囲といった難易度シナリオにおいて,高品質な深度推定と点雲再構成を実現することができる。
さらに,raymvsnet++ では,注意ゲーティングユニットの設計により,各光線に対する文脈的特徴の集約を向上し,その光線周辺の局所フラスタム内で意味的に関連のある隣接光線を選択する。
RayMVSNet++はScanNetデータセット上で最先端のパフォーマンスを達成する。
特に、0.058mのAbsRelを獲得し、テクスチャレス領域の2つのサブセットと大きな深さ変化の正確な結果を生成する。
関連論文リスト
- Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? [61.234412062595155]
我々は、単眼深度推定のために設計された、ニューヨーク深度v2データセットの事実上拡張版であるANYUを紹介する。
仮想世界の完全な3Dシーンを利用して人工データセットを生成する、よく知られたアプローチとは対照的に、ANYUはバーチャルリアリティーオブジェクトのRGB-D表現を取り入れて作成された。
ANYUは,アーキテクチャがかなり異なるディープニューラルネットワークの単眼深度推定性能と一般化を改善したことを示す。
論文 参考訳(メタデータ) (2024-04-15T05:44:03Z) - SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。
適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文 参考訳(メタデータ) (2023-08-17T14:52:11Z) - High-Resolution Synthetic RGB-D Datasets for Monocular Depth Estimation [3.349875948009985]
我々は、GTA-V(Grand Theft Auto)から1920×1080の高解像度合成深度データセット(HRSD)を生成する。
実験と解析のために,提案した合成データセットに基づいて,最先端の変換器に基づくMDEアルゴリズムであるDPTアルゴリズムを訓練し,異なるシーンにおける深度マップの精度を9%向上させる。
論文 参考訳(メタデータ) (2023-05-02T19:03:08Z) - RayMVSNet: Learning Ray-based 1D Implicit Fields for Accurate Multi-View
Stereo [35.22032072756035]
RayMVSNetは、シーン深度を示すゼロクロスポイントを用いて、各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習する。
本手法は,従来の学習手法よりも,DTUとTurps & Templesのデータセットの上位にランク付けする。
論文 参考訳(メタデータ) (2022-04-04T08:43:38Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。