論文の概要: VIMD: Monocular Visual-Inertial Motion and Depth Estimation
- arxiv url: http://arxiv.org/abs/2509.19713v2
- Date: Mon, 29 Sep 2025 23:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.357497
- Title: VIMD: Monocular Visual-Inertial Motion and Depth Estimation
- Title(参考訳): VIMD:単眼視覚慣性運動と深さ推定
- Authors: Saimouli Katragadda, Guoquan Huang,
- Abstract要約: 我々は,高密度な距離深さを推定するために,単眼の視覚-慣性運動と深度学習フレームワークを開発した。
中心となるVIMDは、複数ビュー情報を利用してピクセル単位のスケールを反復的に洗練することである。
以上の結果から,画像あたり10~20メートルの奥行きが極めて少ない場合でも,VIMDの精度と頑健性は極めて高いことがわかった。
- 参考スコア(独自算出の注目度): 8.959715109842742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate and efficient dense metric depth estimation is crucial for 3D visual perception in robotics and XR. In this paper, we develop a monocular visual-inertial motion and depth (VIMD) learning framework to estimate dense metric depth by leveraging accurate and efficient MSCKF-based monocular visual-inertial motion tracking. At the core the proposed VIMD is to exploit multi-view information to iteratively refine per-pixel scale, instead of globally fitting an invariant affine model as in the prior work. The VIMD framework is highly modular, making it compatible with a variety of existing depth estimation backbones. We conduct extensive evaluations on the TartanAir and VOID datasets and demonstrate its zero-shot generalization capabilities on the AR Table dataset. Our results show that VIMD achieves exceptional accuracy and robustness, even with extremely sparse points as few as 10-20 metric depth points per image. This makes the proposed VIMD a practical solution for deployment in resource constrained settings, while its robust performance and strong generalization capabilities offer significant potential across a wide range of scenarios.
- Abstract(参考訳): ロボット工学とXRにおける3次元視覚知覚には,高精度で効率的な計量深度推定が不可欠である。
本稿では,MSCKFに基づく単眼視覚慣性運動追跡の精度と効率を生かして,深度を推定する単眼視覚慣性運動・深度学習フレームワークを開発する。
提案したVIMDは,従来のような不変アフィンモデルをグローバルに適合させる代わりに,複数ビュー情報を利用して画素単位のスケールを反復的に洗練する。
VIMDフレームワークは高度にモジュール化されており、既存の様々な深さ推定バックボーンと互換性がある。
我々は、TartanAirとVOIDデータセットについて広範な評価を行い、AR Tableデータセット上でゼロショットの一般化機能を示す。
以上の結果から,画像あたり10~20メートルの奥行きが極めて少ない場合でも,VIMDの精度と頑健性は極めて高いことがわかった。
これにより、提案されたVIMDはリソース制約された設定にデプロイするための実用的なソリューションとなり、その堅牢なパフォーマンスと強力な一般化能力は、幅広いシナリオにおいて大きな可能性を秘めている。
関連論文リスト
- MonoDINO-DETR: Depth-Enhanced Monocular 3D Object Detection Using a Vision Foundation Model [2.0624236247076397]
本研究では,視覚変換器(ViT)をベースとした基礎モデルをバックボーンとし,世界的特徴を抽出して深度推定を行う。
検出変換器(DETR)アーキテクチャを統合し、深度推定と物体検出性能を1段階的に改善する。
提案モデルは、KITTIの3Dベンチマークと高標高レース環境から収集したカスタムデータセットの評価により、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-02-01T04:37:13Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - VC-Net: Deep Volume-Composition Networks for Segmentation and
Visualization of Highly Sparse and Noisy Image Data [13.805816310795256]
本稿では,3次元微小血管のロバスト抽出のためのエンドツーエンド深層学習手法VC-Netを提案する。
中心となる新規性は、ボリューム可視化技術(MIP)を自動利用して、3Dデータ探索を強化することである。
マルチストリーム畳み込みニューラルネットワークは、それぞれ3次元体積と2次元MIPの特徴を学習し、その相互依存性を結合体積-合成埋め込み空間で探索するために提案される。
論文 参考訳(メタデータ) (2020-09-14T04:15:02Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。