論文の概要: D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual
Odometry
- arxiv url: http://arxiv.org/abs/2003.01060v2
- Date: Sat, 28 Mar 2020 21:08:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 04:12:28.976472
- Title: D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual
Odometry
- Title(参考訳): D3VO:単眼視における深度,深度,深度不確かさ
- Authors: Nan Yang and Lukas von Stumberg and Rui Wang and Daniel Cremers
- Abstract要約: D3VOは、深度、ポーズ、不確実性推定という3つのレベルでディープネットワークを利用する、単眼の視覚計測のための新しいフレームワークである。
まず,ステレオビデオを用いた自己監督型単眼深度推定ネットワークを提案する。
入力画像上の画素の光度不確かさをモデル化し、深度推定精度を向上させる。
- 参考スコア(独自算出の注目度): 57.5549733585324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose D3VO as a novel framework for monocular visual odometry that
exploits deep networks on three levels -- deep depth, pose and uncertainty
estimation. We first propose a novel self-supervised monocular depth estimation
network trained on stereo videos without any external supervision. In
particular, it aligns the training image pairs into similar lighting condition
with predictive brightness transformation parameters. Besides, we model the
photometric uncertainties of pixels on the input images, which improves the
depth estimation accuracy and provides a learned weighting function for the
photometric residuals in direct (feature-less) visual odometry. Evaluation
results show that the proposed network outperforms state-of-the-art
self-supervised depth estimation networks. D3VO tightly incorporates the
predicted depth, pose and uncertainty into a direct visual odometry method to
boost both the front-end tracking as well as the back-end non-linear
optimization. We evaluate D3VO in terms of monocular visual odometry on both
the KITTI odometry benchmark and the EuRoC MAV dataset.The results show that
D3VO outperforms state-of-the-art traditional monocular VO methods by a large
margin. It also achieves comparable results to state-of-the-art stereo/LiDAR
odometry on KITTI and to the state-of-the-art visual-inertial odometry on EuRoC
MAV, while using only a single camera.
- Abstract(参考訳): 我々はd3voを,奥行き,ポーズ,不確実性推定の3段階の深層ネットワークを利用する単眼視覚オドメトリーのための新しいフレームワークとして提案する。
まず,外部の監視を必要とせず,ステレオ映像で学習した自己教師付き単眼深度推定ネットワークを提案する。
特に、トレーニング画像ペアを、予測輝度変換パラメータを備えた類似の照明条件に調整する。
また、入力画像上の画素の測光不確かさをモデル化し、深度推定精度を向上し、直接(特徴のない)視覚オドメトリーにおける測光残差の学習重み付け関数を提供する。
評価の結果,提案ネットワークは最先端の自己教師型深度推定ネットワークよりも優れていた。
D3VOは、予測深度、ポーズ、不確実性を直接視覚計測法にしっかりと組み込んで、フロントエンドのトラッキングと、バックエンドの非線形最適化の両方を強化する。
我々は,KITTI odometryベンチマークとEuRoC MAVデータセットの両方を用いて,D3VOを単眼視計測で評価した。
また、KITTIの最先端ステレオ/LiDARオドメトリーと、EuRoC MAVの最先端のビジュアル慣性オドメトリーに匹敵する結果を得る。
関連論文リスト
- Self-supervised Monocular Depth Estimation on Water Scenes via Specular Reflection Prior [3.2120448116996103]
本論文は,フレーム内事前情報を用いた深層学習深度推定のための最初のセルフスーパービジョンを提案する。
第1段階では、反射成分と全体像とを分離する分水ネットワークが実行される。
SmoothL1と新しい光度適応型SSIMを組み合わせた光度再投影誤差を定式化し、ポーズと深さの推定を最適化する。
論文 参考訳(メタデータ) (2024-04-10T17:25:42Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - GUPNet++: Geometry Uncertainty Propagation Network for Monocular 3D
Object Detection [95.8940731298518]
我々はGUPNet++(Geometry Uncertainty Propagation Network)を提案する。
トレーニング中の幾何射影の不確実性伝播関係をモデル化し、エンドツーエンドのモデル学習の安定性と効率を向上させる。
実験により,提案手法は画像ベースモノクロ3次元検出におけるSOTA性能を得るだけでなく,簡易なフレームワークで有効性を示す。
論文 参考訳(メタデータ) (2023-10-24T08:45:15Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - Scale-aware direct monocular odometry [4.111899441919165]
本稿では,深部ニューラルネットワークからの深度予測に基づく直接単分子オードメトリーの枠組みを提案する。
提案手法は,従来の単分子SLAMよりも5倍から9倍精度が高く,ステレオシステムに近い精度である。
論文 参考訳(メタデータ) (2021-09-21T10:30:15Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Deep Two-View Structure-from-Motion Revisited [83.93809929963969]
2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。
古典パイプラインの適切性を活用することで,深部2視点sfmの問題を再検討することを提案する。
本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
論文 参考訳(メタデータ) (2021-04-01T15:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。