論文の概要: DeepMLE: A Robust Deep Maximum Likelihood Estimator for Two-view
Structure from Motion
- arxiv url: http://arxiv.org/abs/2210.05517v1
- Date: Tue, 11 Oct 2022 15:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:30:35.956041
- Title: DeepMLE: A Robust Deep Maximum Likelihood Estimator for Two-view
Structure from Motion
- Title(参考訳): DeepMLE:モーションからの2次元構造のためのロバストな最深部推定器
- Authors: Yuxi Xiao, Li Li, Xiaodi Li and Jian Yao
- Abstract要約: 動きからの2次元構造(SfM)は3次元再構成と視覚SLAM(vSLAM)の基礎となる。
本稿では,2視点SfM問題を最大最大推定(MLE)として定式化し,DeepMLEと表記されるフレームワークを用いて解いた。
提案手法は,最先端の2ビューSfM手法よりも精度と一般化能力において優れる。
- 参考スコア(独自算出の注目度): 9.294501649791016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two-view structure from motion (SfM) is the cornerstone of 3D reconstruction
and visual SLAM (vSLAM). Many existing end-to-end learning-based methods
usually formulate it as a brute regression problem. However, the inadequate
utilization of traditional geometry model makes the model not robust in unseen
environments. To improve the generalization capability and robustness of
end-to-end two-view SfM network, we formulate the two-view SfM problem as a
maximum likelihood estimation (MLE) and solve it with the proposed framework,
denoted as DeepMLE. First, we propose to take the deep multi-scale correlation
maps to depict the visual similarities of 2D image matches decided by
ego-motion. In addition, in order to increase the robustness of our framework,
we formulate the likelihood function of the correlations of 2D image matches as
a Gaussian and Uniform mixture distribution which takes the uncertainty caused
by illumination changes, image noise and moving objects into account.
Meanwhile, an uncertainty prediction module is presented to predict the
pixel-wise distribution parameters. Finally, we iteratively refine the depth
and relative camera pose using the gradient-like information to maximize the
likelihood function of the correlations. Extensive experimental results on
several datasets prove that our method significantly outperforms the
state-of-the-art end-to-end two-view SfM approaches in accuracy and
generalization capability.
- Abstract(参考訳): 動きからの2次元構造(SfM)は3次元再構成と視覚SLAM(vSLAM)の基礎となる。
既存のエンド・ツー・エンドの学習に基づく多くの手法は、通常、過酷な回帰問題として定式化している。
しかし、伝統的な幾何学モデルの不適切な利用により、このモデルは見当たらない環境では堅牢ではない。
エンド・ツー・エンドの2ビューSfMネットワークの一般化能力とロバスト性を改善するため、2ビューSfM問題を最大推定(MLE)として定式化し、DeepMLEと呼ばれる提案されたフレームワークを用いて解決する。
まず,エゴモーションによって決定される2次元画像マッチングの視覚的類似性を記述するために,深層マルチスケール相関マップを提案する。
また,本フレームワークのロバスト性を高めるため,2次元画像マッチングの相関関係の確率関数をガウス・均一混合分布として定式化し,照明変化,画像ノイズ,移動物体を考慮した不確実性を考慮した。
一方、画素分布パラメータを予測する不確実性予測モジュールが提示される。
最後に,グラデーションライクな情報を用いて深度と相対カメラのポーズを反復的に洗練し,相関の確率関数を最大化する。
複数のデータセットに対する大規模な実験結果から,本手法は精度と一般化能力において最先端の2ビューSfMアプローチよりも優れていることが示された。
関連論文リスト
- Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Frequency-Aware Self-Supervised Monocular Depth Estimation [41.97188738587212]
自己教師付き単眼深度推定モデルを改善するための2つの多目的手法を提案する。
本手法の高一般化性は,測光損失関数の基本的およびユビキタスな問題を解くことによって達成される。
我々は、解釈可能な解析で深度推定器を改善するために、初めてぼやけた画像を提案する。
論文 参考訳(メタデータ) (2022-10-11T14:30:26Z) - A Model for Multi-View Residual Covariances based on Perspective
Deformation [88.21738020902411]
マルチビューSfM, オードメトリ, SLAMセットアップにおける視覚的残差の共分散モデルの導出を行う。
我々は、合成データと実データを用いてモデルを検証し、それを光度および特徴量に基づくバンドル調整に統合する。
論文 参考訳(メタデータ) (2022-02-01T21:21:56Z) - Deep Two-View Structure-from-Motion Revisited [83.93809929963969]
2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。
古典パイプラインの適切性を活用することで,深部2視点sfmの問題を再検討することを提案する。
本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
論文 参考訳(メタデータ) (2021-04-01T15:31:20Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z) - DeepRelativeFusion: Dense Monocular SLAM using Single-Image Relative
Depth Prediction [4.9188958016378495]
本稿では,一様一貫した3次元構造を復元できる,ディープフュージョンと呼ばれる高密度単分子SLAMシステムを提案する。
視覚的SLAMを用いて、カメラのポーズと奥行きの半深度マップを確実に復元し、それから相対深度予測を用いて半深度マップを密度化し、ポーズグラフを精査する。
我々のシステムは、最先端の高密度SLAMシステムよりも、大規模なマージンによる高密度再構成精度で定量的に性能を向上する。
論文 参考訳(メタデータ) (2020-06-07T05:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。