論文の概要: Deep Two-View Structure-from-Motion Revisited
- arxiv url: http://arxiv.org/abs/2104.00556v1
- Date: Thu, 1 Apr 2021 15:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:35:17.292244
- Title: Deep Two-View Structure-from-Motion Revisited
- Title(参考訳): 深部2次元構造-運動からの再考
- Authors: Jianyuan Wang, Yiran Zhong, Yuchao Dai, Stan Birchfield, Kaihao Zhang,
Nikolai Smolyanskiy, Hongdong Li
- Abstract要約: 2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。
古典パイプラインの適切性を活用することで,深部2視点sfmの問題を再検討することを提案する。
本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
- 参考スコア(独自算出の注目度): 83.93809929963969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two-view structure-from-motion (SfM) is the cornerstone of 3D reconstruction
and visual SLAM. Existing deep learning-based approaches formulate the problem
by either recovering absolute pose scales from two consecutive frames or
predicting a depth map from a single image, both of which are ill-posed
problems. In contrast, we propose to revisit the problem of deep two-view SfM
by leveraging the well-posedness of the classic pipeline. Our method consists
of 1) an optical flow estimation network that predicts dense correspondences
between two frames; 2) a normalized pose estimation module that computes
relative camera poses from the 2D optical flow correspondences, and 3) a
scale-invariant depth estimation network that leverages epipolar geometry to
reduce the search space, refine the dense correspondences, and estimate
relative depth maps. Extensive experiments show that our method outperforms all
state-of-the-art two-view SfM methods by a clear margin on KITTI depth, KITTI
VO, MVS, Scenes11, and SUN3D datasets in both relative pose and depth
estimation.
- Abstract(参考訳): 2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。
既存のディープラーニングベースのアプローチは、2つの連続するフレームから絶対的なポーズスケールを復元するか、1つのイメージから深度マップを予測することで問題を定式化する。
対照的に,我々は古典的パイプラインの適切さを活かし,深部2視点sfmの問題を再考する。
本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
提案手法は,KITTI深度,KITTI VO,MVS,Scenes11,SUN3Dデータセットの相対的ポーズと深度推定において,最先端の2次元SfM手法よりも優れていることを示す。
関連論文リスト
- DCPI-Depth: Explicitly Infusing Dense Correspondence Prior to Unsupervised Monocular Depth Estimation [17.99904937160487]
DCPI-Depthは、これらの革新的なコンポーネントをすべて組み込んで、2つの双方向および協調的なストリームを結合するフレームワークである。
複数の公開データセットにまたがる最先端のパフォーマンスと一般化性を実現し、既存のすべての先行技術を上回っている。
論文 参考訳(メタデータ) (2024-05-27T08:55:17Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - DeepMLE: A Robust Deep Maximum Likelihood Estimator for Two-view
Structure from Motion [9.294501649791016]
動きからの2次元構造(SfM)は3次元再構成と視覚SLAM(vSLAM)の基礎となる。
本稿では,2視点SfM問題を最大最大推定(MLE)として定式化し,DeepMLEと表記されるフレームワークを用いて解いた。
提案手法は,最先端の2ビューSfM手法よりも精度と一般化能力において優れる。
論文 参考訳(メタデータ) (2022-10-11T15:07:25Z) - Exploiting Correspondences with All-pairs Correlations for Multi-view
Depth Estimation [19.647670347925754]
多視点深度推定は,3次元世界を再構築し,理解する上で重要な役割を担っている。
最適化過程を模倣した新しい反復的多視点深度推定フレームワークを設計する。
ScanNet,DeMoN,ETH3D,および7Scenesについて十分な実験を行い,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-05-05T07:38:31Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - DeepRelativeFusion: Dense Monocular SLAM using Single-Image Relative
Depth Prediction [4.9188958016378495]
本稿では,一様一貫した3次元構造を復元できる,ディープフュージョンと呼ばれる高密度単分子SLAMシステムを提案する。
視覚的SLAMを用いて、カメラのポーズと奥行きの半深度マップを確実に復元し、それから相対深度予測を用いて半深度マップを密度化し、ポーズグラフを精査する。
我々のシステムは、最先端の高密度SLAMシステムよりも、大規模なマージンによる高密度再構成精度で定量的に性能を向上する。
論文 参考訳(メタデータ) (2020-06-07T05:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。