論文の概要: Learned Monocular Depth Priors in Visual-Inertial Initialization
- arxiv url: http://arxiv.org/abs/2204.09171v1
- Date: Wed, 20 Apr 2022 00:30:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 15:11:58.782564
- Title: Learned Monocular Depth Priors in Visual-Inertial Initialization
- Title(参考訳): 視覚慣性初期化における単眼深度の事前学習
- Authors: Yunwen Zhou, Abhishek Kar, Eric Turner, Adarsh Kowdle, Chao X. Guo,
Ryan C. DuToit, Konstantine Tsotsos
- Abstract要約: 視覚慣性オドメトリー(VIO)は、今日のほとんどのAR/VRおよび自律ロボットシステムのポーズ推定バックボーンである。
本稿では,古典的視覚慣性構造の限界を回避することを提案する。
学習した単眼深度画像(単眼深度)を利用して特徴の相対的深度を制約し,そのスケールとシフトを最適化することにより,単眼深度をメートル法スケールにアップグレードする。
- 参考スコア(独自算出の注目度): 4.99761983273316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-inertial odometry (VIO) is the pose estimation backbone for most AR/VR
and autonomous robotic systems today, in both academia and industry. However,
these systems are highly sensitive to the initialization of key parameters such
as sensor biases, gravity direction, and metric scale. In practical scenarios
where high-parallax or variable acceleration assumptions are rarely met (e.g.
hovering aerial robot, smartphone AR user not gesticulating with phone),
classical visual-inertial initialization formulations often become
ill-conditioned and/or fail to meaningfully converge. In this paper we target
visual-inertial initialization specifically for these low-excitation scenarios
critical to in-the-wild usage. We propose to circumvent the limitations of
classical visual-inertial structure-from-motion (SfM) initialization by
incorporating a new learning-based measurement as a higher-level input. We
leverage learned monocular depth images (mono-depth) to constrain the relative
depth of features, and upgrade the mono-depth to metric scale by jointly
optimizing for its scale and shift. Our experiments show a significant
improvement in problem conditioning compared to a classical formulation for
visual-inertial initialization, and demonstrate significant accuracy and
robustness improvements relative to the state-of-the-art on public benchmarks,
particularly under motion-restricted scenarios. We further extend this
improvement to implementation within an existing odometry system to illustrate
the impact of our improved initialization method on resulting tracking
trajectories.
- Abstract(参考訳): 視覚慣性オドメトリー(VIO)は、今日のほとんどのAR/VRおよび自律ロボットシステムの、アカデミックと産業の両方において、ポーズ推定バックボーンである。
しかし、これらのシステムはセンサーバイアス、重力方向、メートル法スケールなどの重要なパラメータの初期化に非常に敏感である。
高パララックスや可変加速度の仮定が滅多に満たない現実のシナリオ(例えば、ホバリング空中ロボット、スマートフォンのarユーザが携帯電話をいじらないような)では、古典的な視覚慣性初期化の定式化はしばしば不条件化され、あるいは意味的に収束しない。
本稿では,これらの低励起シナリオを対象とした視覚慣性初期化を目標とする。
本稿では,従来の視覚慣性構造(SfM)の初期化の限界を回避するために,新たな学習ベース測定を高次入力として取り入れることを提案する。
学習した単眼深度画像(単眼深度)を利用して特徴の相対的深度を制約し,そのスケールとシフトを最適化することにより,単眼深度をメートル法スケールにアップグレードする。
本実験は,視覚慣性初期化の古典的定式化と比較して,問題条件付けの大幅な改善を示し,特に動作制限シナリオにおいて,公的なベンチマークに対する最先端の精度と堅牢性の向上を示す。
さらに,この改良を既存のオドメトリシステムの実装にも拡張し,改良した初期化手法が追跡軌跡に与える影響を明らかにした。
関連論文リスト
- Self-Supervised Geometry-Guided Initialization for Robust Monocular Visual Odometry [9.79428015716139]
本稿では,屋外ベンチマークにおける主要な障害事例を分析し,学習ベースSLAMモデル(DROID-SLAM)の欠点を明らかにする。
本研究では, 凍結した大規模単分子深度推定を利用して, 密集束調整過程を初期化する自己教師付き事前計算手法を提案する。
その単純さにもかかわらず,提案手法は, DDADベンチマークと同様に, KITTIオドメトリーの大幅な改善を示す。
論文 参考訳(メタデータ) (2024-06-03T01:59:29Z) - InfRS: Incremental Few-Shot Object Detection in Remote Sensing Images [11.916941756499435]
本稿では,リモートセンシング画像におけるインクリメンタルな数ショット物体検出の複雑な課題について検討する。
本稿では,新しい授業の漸進的な学習を促進するために,InfRSと呼ばれる先駆的な微調整技術を導入する。
我々はワッサーシュタイン距離に基づく原型校正戦略を開発し、破滅的な忘れ問題を軽減する。
論文 参考訳(メタデータ) (2024-05-18T13:39:50Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained
Ship Classification [62.425462136772666]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-22T18:59:15Z) - Robust Visual Odometry Using Position-Aware Flow and Geometric Bundle
Adjustment [16.04240592057438]
まず,位置認識機構上に構築された新しい光フローネットワーク(PANet)を提案する。
そこで本研究では,エゴモーション学習のための典型的なネットワークを使わずに,深度,光学的流れ,エゴモーションを共同で推定するシステムを提案する。
実験により,提案システムは深度,流れ,VO推定の点で,他の最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-22T12:05:27Z) - Which priors matter? Benchmarking models for learning latent dynamics [70.88999063639146]
古典力学の先行概念を機械学習モデルに統合する手法が提案されている。
これらのモデルの現在の機能について、精査する。
連続的および時間的可逆的ダイナミクスの使用は、すべてのクラスのモデルに恩恵をもたらす。
論文 参考訳(メタデータ) (2021-11-09T23:48:21Z) - Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial
System Applications [0.0]
多目的追跡(MOT)は、軍事防衛分野における状況認識の重要な構成要素である。
本稿では,リアルタイムな状況下での騒音に対応するために,頑健なオブジェクト追跡アーキテクチャを提案する。
本稿では,遅延空間における実体軌道の予測にシーケンス・ツー・シーケンス・アーキテクチャを用いる,Deep Extended Kalman Filter (DeepEKF) と呼ばれるキネマティックな予測モデルを提案する。
論文 参考訳(メタデータ) (2021-10-05T13:50:38Z) - Pushing the Envelope of Rotation Averaging for Visual SLAM [69.7375052440794]
視覚SLAMシステムのための新しい最適化バックボーンを提案する。
従来の単分子SLAMシステムの精度, 効率, 堅牢性を向上させるために, 平均化を活用している。
我々のアプローチは、公開ベンチマークの最先端技術に対して、同等の精度で最大10倍高速に表示することができる。
論文 参考訳(メタデータ) (2020-11-02T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。