論文の概要: SDL-MVS: View Space and Depth Deformable Learning Paradigm for Multi-View Stereo Reconstruction in Remote Sensing
- arxiv url: http://arxiv.org/abs/2405.17140v1
- Date: Mon, 27 May 2024 12:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 15:22:54.645171
- Title: SDL-MVS: View Space and Depth Deformable Learning Paradigm for Multi-View Stereo Reconstruction in Remote Sensing
- Title(参考訳): SDL-MVS:リモートセンシングにおける多視点ステレオ再構成のための空間と深度変形可能な学習パラダイム
- Authors: Yong-Qiang Mao, Hanbo Bi, Liangyu Xu, Kaiqiang Chen, Zhirui Wang, Xian Sun, Kun Fu,
- Abstract要約: マルチビューステレオタスクにおける変形性学習手法を再検討し、ビュースペースと深さ変形性学習(SDL-MVS)に基づく新しいパラダイムを提案する。
我々のSDL-MVSは、異なる視点空間における特徴の変形可能な相互作用を学習し、高精度な深さ推定を可能にするために、深さ範囲と間隔を変形的にモデル化することを目的としている。
LuoJia-MVSとWHUデータセットの実験により、我々のSDL-MVSが最先端の性能に達することが示された。
- 参考スコア(独自算出の注目度): 12.506628755166814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on multi-view stereo based on remote sensing images has promoted the development of large-scale urban 3D reconstruction. However, remote sensing multi-view image data suffers from the problems of occlusion and uneven brightness between views during acquisition, which leads to the problem of blurred details in depth estimation. To solve the above problem, we re-examine the deformable learning method in the Multi-View Stereo task and propose a novel paradigm based on view Space and Depth deformable Learning (SDL-MVS), aiming to learn deformable interactions of features in different view spaces and deformably model the depth ranges and intervals to enable high accurate depth estimation. Specifically, to solve the problem of view noise caused by occlusion and uneven brightness, we propose a Progressive Space deformable Sampling (PSS) mechanism, which performs deformable learning of sampling points in the 3D frustum space and the 2D image space in a progressive manner to embed source features to the reference feature adaptively. To further optimize the depth, we introduce Depth Hypothesis deformable Discretization (DHD), which achieves precise positioning of the depth prior by adaptively adjusting the depth range hypothesis and performing deformable discretization of the depth interval hypothesis. Finally, our SDL-MVS achieves explicit modeling of occlusion and uneven brightness faced in multi-view stereo through the deformable learning paradigm of view space and depth, achieving accurate multi-view depth estimation. Extensive experiments on LuoJia-MVS and WHU datasets show that our SDL-MVS reaches state-of-the-art performance. It is worth noting that our SDL-MVS achieves an MAE error of 0.086, an accuracy of 98.9% for <0.6m, and 98.9% for <3-interval on the LuoJia-MVS dataset under the premise of three views as input.
- Abstract(参考訳): リモートセンシング画像に基づくマルチビューステレオに関する研究により,大規模都市3次元再構築の開発が促進された。
しかし、リモートセンシングによるマルチビュー画像データは、取得中のビュー間の閉塞や不均一な明るさの問題に悩まされ、深度推定におけるぼやけた細部の問題に繋がる。
この問題を解決するために,多視点ステレオタスクにおける変形可能な学習手法を再検討し,異なる視点空間における特徴の変形可能な相互作用を学習し,その深さ範囲と間隔を変形的にモデル化し,高精度な深度推定を実現することを目的とした,ビュースペースと深度変形性学習(SDL-MVS)に基づく新しいパラダイムを提案する。
具体的には、3次元フラストラム空間と2次元画像空間のサンプリング点の変形可能な学習を行うプログレッシブ・スペース・デフォルマブル・サンプリング(PSS)機構を提案する。
さらに深度を最適化するために,深度範囲仮説を適応的に調整し,深度間隔仮説の変形可能な離散化を実行することにより,深度を正確に位置決めするDHD(Depth hypothesis deformable Discretization)を導入する。
最後に,SDL-MVSは,視空間と奥行きの変形可能な学習パラダイムを用いて,多視点ステレオにおけるオクルージョンと不均一な明るさの明示的なモデリングを実現し,高精度な多視点深度推定を実現する。
LuoJia-MVSとWHUデータセットの大規模な実験は、我々のSDL-MVSが最先端の性能に達することを示している。
なお、我々のSDL-MVSは、0.086のMAE誤差、<0.6mの精度98.9%、LuoJia-MVSデータセットの<3インターバル98.9%を3つのビューの前提で達成している。
関連論文リスト
- GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Depth-discriminative Metric Learning for Monocular 3D Object Detection [14.554132525651868]
本稿では,視覚的属性に関係なく,モデルが深度識別的特徴を抽出することを奨励する新しい計量学習手法を提案する。
本手法は, 各種ベースラインの性能を平均23.51%, 5.78%向上させる。
論文 参考訳(メタデータ) (2024-01-02T07:34:09Z) - Anti-Aliased Neural Implicit Surfaces with Encoding Level of Detail [54.03399077258403]
本稿では,高頻度幾何細部リカバリとアンチエイリアス化された新しいビューレンダリングのための効率的なニューラル表現であるLoD-NeuSを提案する。
我々の表現は、光線に沿った円錐状のフラストラム内の多面体化から空間特徴を集約する。
論文 参考訳(メタデータ) (2023-09-19T05:44:00Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - IDMS: Instance Depth for Multi-scale Monocular 3D Object Detection [1.7710335706046505]
拡張畳み込みに基づくマルチスケール認識モジュールは、異なるスケールターゲットに対するモデルの処理能力を向上するために設計されている。
提案アルゴリズムをKITTIテストセットと評価セットで検証することにより,実験結果から,車種別AP40の5.27%の改善が得られた。
論文 参考訳(メタデータ) (2022-12-03T04:02:31Z) - Rethinking Disparity: A Depth Range Free Multi-View Stereo Based on
Disparity [17.98608948955211]
既存の学習ベースのマルチビューステレオ(MVS)手法は、3Dコストボリュームを構築するために深さ範囲に依存している。
本稿では,DipMVSと呼ばれるエピポーラ分散フロー(E-flow)に基づく分散型MVS法を提案する。
本研究では、DipMVSは深さ範囲に敏感ではなく、GPUメモリを低くすることで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-11-30T11:05:02Z) - Non-learning Stereo-aided Depth Completion under Mis-projection via
Selective Stereo Matching [0.5067618621449753]
一対のステレオ画像で導かれる光検出・測度センサ(LiDAR)を用いて捉えたスパース深度マップの非学習深度補完法を提案する。
提案手法は, 平均絶対誤差(MAE)を0.65倍に減らし, 従来よりも約2倍の精度で推定できることを示した。
論文 参考訳(メタデータ) (2022-10-04T07:46:56Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - Deep Two-View Structure-from-Motion Revisited [83.93809929963969]
2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。
古典パイプラインの適切性を活用することで,深部2視点sfmの問題を再検討することを提案する。
本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
論文 参考訳(メタデータ) (2021-04-01T15:31:20Z) - D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual
Odometry [57.5549733585324]
D3VOは、深度、ポーズ、不確実性推定という3つのレベルでディープネットワークを利用する、単眼の視覚計測のための新しいフレームワークである。
まず,ステレオビデオを用いた自己監督型単眼深度推定ネットワークを提案する。
入力画像上の画素の光度不確かさをモデル化し、深度推定精度を向上させる。
論文 参考訳(メタデータ) (2020-03-02T17:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。