論文の概要: Pseudo RGB-D for Self-Improving Monocular SLAM and Depth Prediction
- arxiv url: http://arxiv.org/abs/2004.10681v3
- Date: Fri, 7 Aug 2020 05:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 18:33:02.417782
- Title: Pseudo RGB-D for Self-Improving Monocular SLAM and Depth Prediction
- Title(参考訳): 自己改善単分子SLAMのための擬似RGB-Dと深さ予測
- Authors: Lokender Tiwari, Pan Ji, Quoc-Huy Tran, Bingbing Zhuang, Saket Anand,
Manmohan Chandraker
- Abstract要約: モノクロ深度予測のためのCNNは、周囲の環境の3Dマップを構築するための2つの大きく不連続なアプローチを表している。
本稿では,CNN予測深度を利用してRGB-D特徴量に基づくSLAMを行う,狭義の広義の自己改善フレームワークを提案する。
一方、より原理化された幾何学的SLAMの3次元シーン構造とカメラポーズは、新しい広義のベースライン損失により奥行きネットワークに注入される。
- 参考スコア(独自算出の注目度): 72.30870535815258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical monocular Simultaneous Localization And Mapping (SLAM) and the
recently emerging convolutional neural networks (CNNs) for monocular depth
prediction represent two largely disjoint approaches towards building a 3D map
of the surrounding environment. In this paper, we demonstrate that the coupling
of these two by leveraging the strengths of each mitigates the other's
shortcomings. Specifically, we propose a joint narrow and wide baseline based
self-improving framework, where on the one hand the CNN-predicted depth is
leveraged to perform pseudo RGB-D feature-based SLAM, leading to better
accuracy and robustness than the monocular RGB SLAM baseline. On the other
hand, the bundle-adjusted 3D scene structures and camera poses from the more
principled geometric SLAM are injected back into the depth network through
novel wide baseline losses proposed for improving the depth prediction network,
which then continues to contribute towards better pose and 3D structure
estimation in the next iteration. We emphasize that our framework only requires
unlabeled monocular videos in both training and inference stages, and yet is
able to outperform state-of-the-art self-supervised monocular and stereo depth
prediction networks (e.g, Monodepth2) and feature-based monocular SLAM system
(i.e, ORB-SLAM). Extensive experiments on KITTI and TUM RGB-D datasets verify
the superiority of our self-improving geometry-CNN framework.
- Abstract(参考訳): 古典的単眼同時測位・マッピング(slam)と最近出現した単眼深度予測のための畳み込みニューラルネットワーク(cnns)は、周囲環境の3dマップを構築するための2つの大きな非協力的アプローチを表している。
本稿では,これら2つの結合が,両者の強みを生かして互いの欠点を軽減できることを実証する。
具体的には、CNN予測深度を利用して擬似RGB-D特徴量ベースのSLAMを行い、単一のRGB SLAMベースラインよりも精度と堅牢性を向上する、狭狭広ベースラインによる自己改善フレームワークを提案する。
一方、より原理化された幾何学的SLAMの3次元シーン構造とカメラポーズは、深度予測ネットワークを改善するために提案された新しい広義のベースライン損失により、深度ネットワークに注入され、次のイテレーションでより良いポーズと3次元構造推定に寄与し続けている。
我々のフレームワークはトレーニング段階と推論段階の両方において、ラベルなしのモノクラービデオのみを必要とするが、最先端の自己監督型モノクラー・ステレオ深度予測ネットワーク(Monodepth2)や機能ベースのモノクラーSLAMシステム(ORB-SLAM)よりも優れている。
KITTIとTUM RGB-Dデータセットの大規模な実験は、我々の自己改善型幾何CNNフレームワークの優位性を検証する。
関連論文リスト
- Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - MonoSDF: Exploring Monocular Geometric Cues for Neural Implicit Surface
Reconstruction [72.05649682685197]
最先端のニューラル暗黙法は、多くの入力ビューから単純なシーンの高品質な再構築を可能にする。
これは主に、十分な制約を提供していないRGB再構築損失の固有の曖昧さによって引き起こされる。
近年の単分子形状予測の分野での進歩に触発され, ニューラルな暗黙的表面再構成の改善にこれらの方法が役立つかを探究する。
論文 参考訳(メタデータ) (2022-06-01T17:58:15Z) - NVS-MonoDepth: Improving Monocular Depth Prediction with Novel View
Synthesis [74.4983052902396]
単眼深度推定を改善するために,3つの主要なステップに分割した新しいトレーニング手法を提案する。
実験により,KITTIおよびNYU-Depth-v2データセット上での最先端ないし同等の性能が得られた。
論文 参考訳(メタデータ) (2021-12-22T12:21:08Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Towards Comprehensive Monocular Depth Estimation: Multiple Heads Are
Better Than One [32.01675089157679]
本稿では,複数の弱い深度予測器の強度を統合し,包括的かつ正確な深度予測器を構築することを提案する。
具体的には、異なるTransformerベースおよび畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを用いて、複数のベース(弱)深さ予測器を構築する。
その結果、トランスフォーマー支援深度アンサンブル(TEDepth)と呼ばれるモデルでは、従来の最先端手法よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2021-11-16T09:09:05Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - Monocular Depth Estimation Primed by Salient Point Detection and
Normalized Hessian Loss [43.950140695759764]
本稿では,単眼深度推定のための高精度で軽量なフレームワークを提案する。
深度方向のスケーリングとせん断に不変な正規化ヘッセン損失項を導入し,精度を著しく向上させることを示した。
提案手法は,NYU-Depth-v2 と KITTI の3.1-38.4 倍小さいモデルを用いて,ベースライン手法よりもパラメータ数が多い場合の最先端結果を実現する。
論文 参考訳(メタデータ) (2021-08-25T07:51:09Z) - Self-supervised Depth Estimation Leveraging Global Perception and
Geometric Smoothness Using On-board Videos [0.5276232626689566]
我々は,グローバルな特徴と局所的な特徴を同時に抽出する画素ワイド深度推定のためのDLNetを提案する。
幾何学的に自然な深度マップを予測するために3次元形状の滑らかさ損失を提案する。
KITTIとMake3Dベンチマークの実験では、提案したDLNetは最先端の手法と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-06-07T10:53:27Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。