論文の概要: DF-VO: What Should Be Learnt for Visual Odometry?
- arxiv url: http://arxiv.org/abs/2103.00933v1
- Date: Mon, 1 Mar 2021 11:50:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:35:27.030635
- Title: DF-VO: What Should Be Learnt for Visual Odometry?
- Title(参考訳): DF-VO:視覚オドメトリーに何を学ぶべきか?
- Authors: Huangying Zhan, Chamara Saroj Weerasekera, Jia-Wang Bian, Ravi Garg,
Ian Reid
- Abstract要約: マルチビュージオメトリと深層学習を深さと光フローで統合し、シンプルで堅牢な視覚オドメトリーシステムを設計します。
包括的アブレーション研究により,提案手法の有効性が示され,本システムの性能に関する広範な評価結果が得られた。
- 参考スコア(独自算出の注目度): 33.379888882093965
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-view geometry-based methods dominate the last few decades in monocular
Visual Odometry for their superior performance, while they have been vulnerable
to dynamic and low-texture scenes. More importantly, monocular methods suffer
from scale-drift issue, i.e., errors accumulate over time. Recent studies show
that deep neural networks can learn scene depths and relative camera in a
self-supervised manner without acquiring ground truth labels. More
surprisingly, they show that the well-trained networks enable scale-consistent
predictions over long videos, while the accuracy is still inferior to
traditional methods because of ignoring geometric information. Building on top
of recent progress in computer vision, we design a simple yet robust VO system
by integrating multi-view geometry and deep learning on Depth and optical Flow,
namely DF-VO. In this work, a) we propose a method to carefully sample
high-quality correspondences from deep flows and recover accurate camera poses
with a geometric module; b) we address the scale-drift issue by aligning
geometrically triangulated depths to the scale-consistent deep depths, where
the dynamic scenes are taken into account. Comprehensive ablation studies show
the effectiveness of the proposed method, and extensive evaluation results show
the state-of-the-art performance of our system, e.g., Ours (1.652%) v.s.
ORB-SLAM (3.247%}) in terms of translation error in KITTI Odometry benchmark.
Source code is publicly available at:
\href{https://github.com/Huangying-Zhan/DF-VO}{DF-VO}.
- Abstract(参考訳): マルチビュージオメトリベースの方法は、その優れたパフォーマンスのために、過去数十年間の単眼視覚オドメトリーを支配していますが、動的および低テクスチャシーンに脆弱です。
さらに重要なことに、モノクロメソッドはスケールドリフトの問題、すなわちエラーは時間とともに蓄積する。
近年の研究では、地下の真理ラベルを取得することなく、深層ニューラルネットワークがシーン深度と相対カメラを自己監督的に学習できることが示されている。
さらに驚くべきことに、よく訓練されたネットワークは長いビデオよりもスケール一貫性のある予測を可能にするが、幾何学的情報を無視した従来の方法よりも精度は劣っている。
近年のコンピュータビジョンの進歩を基盤として,多視点幾何と深層学習,すなわちDF-VOの深部学習を統合することで,シンプルながら堅牢なVOシステムを設計する。
本研究では, 深度流から高品質な対応を精査し, 正確なカメラポーズを幾何学的モジュールで復元する手法を提案する。 b) 幾何学的に三角化された深度をスケール一貫性のある深度に整列させることで, スケールドリフト問題に対処する。
包括的なアブレーション研究は提案された方法の有効性を示し、広範な評価結果は、例えば、私たちのシステムの最新のパフォーマンスを示しています(1.652%)対。
ORB-SLAM (3.247%}) の翻訳誤差は KITTI Odometry のベンチマークで示されている。
ソースコードは \href{https://github.com/Huangying-Zhan/DF-VO}{DF-VO} で公開されている。
関連論文リスト
- Robot Localization and Mapping Final Report -- Sequential Adversarial
Learning for Self-Supervised Deep Visual Odometry [2.512491726995032]
VO(Visual odometry)とSLAM(SLAM)は、何十年にもわたって動きから局所的な構造を通して多視点幾何を用いてきた。
高レベルの特徴を抽出するディープニューラルネットワークは、コンピュータビジョンにおいてユビキタスである。
この研究の目標は、過去のアプローチのこれらの制限に対処し、より良い深さを提供し、見積もりを示す方法を開発することである。
論文 参考訳(メタデータ) (2023-09-08T06:24:17Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Constraining Depth Map Geometry for Multi-View Stereo: A Dual-Depth
Approach with Saddle-shaped Depth Cells [23.345139129458122]
同じ深度予測誤差を用いても、異なる深度ジオメトリには大きな性能ギャップがあることが示される。
サドル形状のセルからなる理想的な深度幾何学を導入し, 予測深度マップは地表面を上下に振動する。
また,本手法は,MVSにおける深度幾何学の新たな研究方向を示す。
論文 参考訳(メタデータ) (2023-07-18T11:37:53Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。