論文の概要: RoMeO: Robust Metric Visual Odometry
- arxiv url: http://arxiv.org/abs/2412.11530v2
- Date: Thu, 19 Dec 2024 06:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:44.567092
- Title: RoMeO: Robust Metric Visual Odometry
- Title(参考訳): RoMeO:ロバストなメトリックビジュアルオドメトリー
- Authors: Junda Cheng, Zhipeng Cai, Zhaoxing Zhang, Wei Yin, Matthias Muller, Michael Paulitsch, Xin Yang,
- Abstract要約: ビジュアルオドメトリー(VO)は、視覚入力からカメラのポーズを推定することを目的としている。
既存のアプローチでは、この困難なシナリオ下で堅牢性が欠如し、目に見えないデータ(特に屋外)に一般化できない
本稿では,事前学習した深度モデルから,これらの問題を解決する新しい手法であるRoMeO(Roust Metric Visual Odometry)を提案する。
- 参考スコア(独自算出の注目度): 11.381243799745729
- License:
- Abstract: Visual odometry (VO) aims to estimate camera poses from visual inputs -- a fundamental building block for many applications such as VR/AR and robotics. This work focuses on monocular RGB VO where the input is a monocular RGB video without IMU or 3D sensors. Existing approaches lack robustness under this challenging scenario and fail to generalize to unseen data (especially outdoors); they also cannot recover metric-scale poses. We propose Robust Metric Visual Odometry (RoMeO), a novel method that resolves these issues leveraging priors from pre-trained depth models. RoMeO incorporates both monocular metric depth and multi-view stereo (MVS) models to recover metric-scale, simplify correspondence search, provide better initialization and regularize optimization. Effective strategies are proposed to inject noise during training and adaptively filter noisy depth priors, which ensure the robustness of RoMeO on in-the-wild data. As shown in Fig.1, RoMeO advances the state-of-the-art (SOTA) by a large margin across 6 diverse datasets covering both indoor and outdoor scenes. Compared to the current SOTA DPVO, RoMeO reduces the relative (align the trajectory scale with GT) and absolute trajectory errors both by >50%. The performance gain also transfers to the full SLAM pipeline (with global BA & loop closure). Code will be released upon acceptance.
- Abstract(参考訳): ビジュアルオドメトリー(VO)は、視覚入力からカメラのポーズを推定することを目的としている。
この研究は、インプットがIMUや3Dセンサーを使わずにモノクラーRGBビデオであるモノクラーRGB VOに焦点を当てている。
既存のアプローチでは、この困難なシナリオの下で堅牢性が欠如しており、目に見えないデータ(特に屋外)に一般化できない。
本稿では,事前学習した深度モデルから,これらの問題を解決する新しい手法であるRoMeO(Roust Metric Visual Odometry)を提案する。
RoMeOは、単眼のメートル法深度とマルチビューステレオ(MVS)モデルの両方を導入し、メートル法スケールを回復し、対応検索を簡素化し、より優れた初期化と最適化を提供する。
トレーニング中にノイズを注入し,ノイズを適応的にフィルタすることで,RoMeOの強靭性を確保する方法を提案する。
図1に示すように、RoMeOは、屋内と屋外の両方をカバーする6つの多様なデータセットで、最先端のSOTA(State-of-the-art)を大きなマージンで前進させる。
現在のSOTA DPVOと比較して、RoMeoは相対的(GTの軌道スケールに比して)と絶対的軌道誤差を50%削減する。
パフォーマンス向上は、完全なSLAMパイプライン(グローバルBAとループクロージャを含む)にも転送される。
コードは受理時にリリースされる。
関連論文リスト
- MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation [9.639797094021988]
MetricGoldは、生成拡散モデルの豊富な先行値を利用して、メートル法深さ推定を改善する新しいアプローチである。
我々の実験は、多様なデータセットをまたいだ堅牢な一般化を実証し、よりシャープで高品質なメートル法深さ推定を導出する。
論文 参考訳(メタデータ) (2024-11-16T20:59:01Z) - Gravity-aligned Rotation Averaging with Circular Regression [53.81374943525774]
我々は,重力方向をグローバルパイプラインの回転平均位相に統合する原理的アプローチを導入する。
4つの大規模データセットで最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-10-16T17:37:43Z) - ES-PTAM: Event-based Stereo Parallel Tracking and Mapping [11.801511288805225]
イベントカメラは、標準的なカメラの限界を克服する利点を提供する。
2つのアイデアを組み合わせたイベントベースステレオVOシステムを提案する。
実世界の5つのデータセットからシステムを評価する。
論文 参考訳(メタデータ) (2024-08-28T07:56:28Z) - RD-VIO: Robust Visual-Inertial Odometry for Mobile Augmented Reality in
Dynamic Environments [55.864869961717424]
視覚的・視覚的慣性オドメトリーシステムでは、動的シーンや純粋な回転の問題に対処することが通常困難である。
我々はこれらの問題に対処するためにRD-VIOと呼ばれる新しい視覚-慣性オドメトリーシステム(VIO)を設計する。
論文 参考訳(メタデータ) (2023-10-23T16:30:39Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - Benchmarking Visual-Inertial Deep Multimodal Fusion for Relative Pose
Regression and Odometry-aided Absolute Pose Regression [6.557612703872671]
視覚慣性ローカライゼーションは、仮想現実、自動運転車、航空機などのコンピュータビジョンやロボティクスアプリケーションにおいて重要な問題である。
本研究では,ポーズグラフの最適化とアテンションネットワークに基づく深層マルチモーダル融合の評価を行う。
本稿では,APR-RPRタスクの改善と,航空機やハンドヘルド機器のRPR-RPRタスクの改善について述べる。
論文 参考訳(メタデータ) (2022-08-01T15:05:26Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - RVMDE: Radar Validated Monocular Depth Estimation for Robotics [5.360594929347198]
両眼視センサの固有剛性校正は正確な深度推定に不可欠である。
あるいは、単眼カメラは、深度推定の精度を犠牲にして制限を緩和し、厳しい環境条件下では課題が悪化する。
本研究は, 環境条件下での深度推定のために, 単眼カメラの細粒度データと融合した場合のレーダーからの粗い信号の有用性について検討する。
論文 参考訳(メタデータ) (2021-09-11T12:02:29Z) - Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object
Detection [89.66162518035144]
点雲から2段階の3Dオブジェクトを検出するための柔軟で高性能なフレームワークであるPraamid R-CNNを提案する。
興味の疎い点から特徴を適応的に学習するために,ピラミッドRoIヘッドという新しい第2段モジュールを提案する。
我々のピラミッドRoIヘッドはスパースかつ不均衡な状況に対して堅牢であり、検出性能を継続的に向上するために様々な3Dバックボーンに適用することができる。
論文 参考訳(メタデータ) (2021-09-06T14:17:51Z) - Instant Visual Odometry Initialization for Mobile AR [5.497296425129818]
運動視差を伴わずとも瞬時に初期化できる6-DoF単眼視機能検査を施行した。
我々の主な貢献は5-DoFの相対回転と翻訳の方向を推定するポーズ推定器である。
我々のソリューションは、フルオドメトリーまたはサポート対象のSLAMシステムのプレSLAMコンポーネントとして使用される。
論文 参考訳(メタデータ) (2021-07-30T14:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。