論文の概要: Zero-Shot Metric Depth Estimation via Monocular Visual-Inertial Rescaling for Autonomous Aerial Navigation
- arxiv url: http://arxiv.org/abs/2509.08159v1
- Date: Tue, 09 Sep 2025 21:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.255071
- Title: Zero-Shot Metric Depth Estimation via Monocular Visual-Inertial Rescaling for Autonomous Aerial Navigation
- Title(参考訳): 自律航法のための単眼視覚慣性再スケーリングによるゼロショット距離推定
- Authors: Steven Yang, Xiaoyu Tian, Kshitij Goel, Wennie Tabib,
- Abstract要約: 本稿では,単分子RGB画像と慣性測定ユニット(IMU)から距離深度を予測する手法を提案する。
スパース3次元特徴写像を用いて相対深度推定から距離深度を求めるための軽量ゼロショット再スケーリング手法を提案する。
提案手法を移動プリミティブベースプランナと統合した後, 衝突回避効果を示す。
- 参考スコア(独自算出の注目度): 6.996435353737172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a methodology to predict metric depth from monocular RGB images and an inertial measurement unit (IMU). To enable collision avoidance during autonomous flight, prior works either leverage heavy sensors (e.g., LiDARs or stereo cameras) or data-intensive and domain-specific fine-tuning of monocular metric depth estimation methods. In contrast, we propose several lightweight zero-shot rescaling strategies to obtain metric depth from relative depth estimates via the sparse 3D feature map created using a visual-inertial navigation system. These strategies are compared for their accuracy in diverse simulation environments. The best performing approach, which leverages monotonic spline fitting, is deployed in the real-world on a compute-constrained quadrotor. We obtain on-board metric depth estimates at 15 Hz and demonstrate successful collision avoidance after integrating the proposed method with a motion primitives-based planner.
- Abstract(参考訳): 本稿では,単分子RGB画像と慣性測定ユニット(IMU)から距離深度を予測する手法を提案する。
自律飛行中の衝突回避を可能にするために、先行作業では重いセンサー(例えばLiDARやステレオカメラ)を利用するか、データ集約型でドメイン固有の単眼メートル法を微調整する。
対照的に,視覚慣性ナビゲーションシステムを用いて作成したスパース3D特徴マップを用いて,相対深度推定から距離深度を求めるための軽量ゼロショット再スケーリング手法を提案する。
これらの戦略は多様なシミュレーション環境での精度と比較される。
単調なスプラインフィッティングを利用する最も優れたパフォーマンスのアプローチは、計算制約のある4乗子上に現実世界に展開される。
提案手法を移動プリミティブベースプランナと統合した後, 衝突回避効果を示す。
関連論文リスト
- Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。
このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。
提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文 参考訳(メタデータ) (2025-08-06T16:16:58Z) - Dense-depth map guided deep Lidar-Visual Odometry with Sparse Point Clouds and Images [4.320220844287486]
オドメトリは、自律システムにとって、自己ローカライゼーションとナビゲーションにとって重要なタスクである。
我々は,LiDARの点雲と画像を統合し,正確なポーズ推定を行う新しいLiDAR-Visual odometryフレームワークを提案する。
提案手法は,最先端のビジュアルおよびLiDARオドメトリー法と比較して,類似あるいは優れた精度とロバスト性を実現する。
論文 参考訳(メタデータ) (2025-07-21T10:58:10Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - Depth-discriminative Metric Learning for Monocular 3D Object Detection [14.554132525651868]
本稿では,視覚的属性に関係なく,モデルが深度識別的特徴を抽出することを奨励する新しい計量学習手法を提案する。
本手法は, 各種ベースラインの性能を平均23.51%, 5.78%向上させる。
論文 参考訳(メタデータ) (2024-01-02T07:34:09Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - Weighted Bayesian Gaussian Mixture Model for Roadside LiDAR Object
Detection [0.5156484100374059]
背景モデリングは、静的な背景成分を減じることで移動目標を検出するインテリジェントな監視システムに広く利用されている。
多くの道路沿いのLiDARオブジェクト検出手法は、新しいデータポイントと事前訓練されたバックグラウンド参照を比較して前景点をフィルタリングする。
本稿では,各LiDAR点の標高と方位値に基づいて,生のLiDARデータを構造化表現に変換する。
提案手法は,2つの最先端の道路背景モデル,コンピュータビジョンベンチマーク,深層学習ベースラインを比較し,交通量と難易度で評価された点,対象,経路レベルを比較した。
論文 参考訳(メタデータ) (2022-04-20T22:48:05Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - Scale-aware direct monocular odometry [4.111899441919165]
本稿では,深部ニューラルネットワークからの深度予測に基づく直接単分子オードメトリーの枠組みを提案する。
提案手法は,従来の単分子SLAMよりも5倍から9倍精度が高く,ステレオシステムに近い精度である。
論文 参考訳(メタデータ) (2021-09-21T10:30:15Z) - D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual
Odometry [57.5549733585324]
D3VOは、深度、ポーズ、不確実性推定という3つのレベルでディープネットワークを利用する、単眼の視覚計測のための新しいフレームワークである。
まず,ステレオビデオを用いた自己監督型単眼深度推定ネットワークを提案する。
入力画像上の画素の光度不確かさをモデル化し、深度推定精度を向上させる。
論文 参考訳(メタデータ) (2020-03-02T17:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。