論文の概要: Dropping the D: RGB-D SLAM Without the Depth Sensor
- arxiv url: http://arxiv.org/abs/2510.06216v2
- Date: Sun, 02 Nov 2025 21:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 20:19:58.543565
- Title: Dropping the D: RGB-D SLAM Without the Depth Sensor
- Title(参考訳): 奥行きセンサーなしのRGB-D SLAM
- Authors: Mert Kiray, Alican Karaomer, Benjamin Busam,
- Abstract要約: 深度センサに頼らずにRGB-Dレベルの精度を実現するリアルタイム単眼SLAMシステムであるDropD-SLAMを提案する。
このシステムは、アクティブな深度入力を3つの事前訓練された視覚モジュールに置き換える。
TUM RGB-Dベンチマークでは、DropD-SLAMは静的シーケンスで平均7.4cm、動的シーケンスで1.8cmに達する。
- 参考スコア(独自算出の注目度): 16.83416267639945
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present DropD-SLAM, a real-time monocular SLAM system that achieves RGB-D-level accuracy without relying on depth sensors. The system replaces active depth input with three pretrained vision modules: a monocular metric depth estimator, a learned keypoint detector, and an instance segmentation network. Dynamic objects are suppressed using dilated instance masks, while static keypoints are assigned predicted depth values and backprojected into 3D to form metrically scaled features. These are processed by an unmodified RGB-D SLAM back end for tracking and mapping. On the TUM RGB-D benchmark, DropD-SLAM attains 7.4 cm mean ATE on static sequences and 1.8 cm on dynamic sequences, matching or surpassing state-of-the-art RGB-D methods while operating at 22 FPS on a single GPU. These results suggest that modern pretrained vision models can replace active depth sensors as reliable, real-time sources of metric scale, marking a step toward simpler and more cost-effective SLAM systems.
- Abstract(参考訳): 深度センサに頼らずにRGB-Dレベルの精度を実現するリアルタイム単眼SLAMシステムであるDropD-SLAMを提案する。
このシステムは、アクティブな深度入力を3つの事前訓練された視覚モジュール(モノクラー計量深度推定器、学習されたキーポイント検出器、インスタンスセグメンテーションネットワーク)に置き換える。
動的オブジェクトは拡張されたインスタンスマスクを使用して抑制され、静的キーポイントは予測された深さ値に割り当てられ、3Dにバックプロジェクションされ、メトリックスケールされた特徴を形成する。
これらは、追跡とマッピングのための未修正のRGB-D SLAMバックエンドによって処理される。
TUM RGB-Dベンチマークでは、DropD-SLAMは静的シーケンスでは7.4 cm、動的シーケンスでは1.8 cm、最先端のRGB-Dメソッドでは22 FPSで動作する。
これらの結果は、現代の事前訓練された視覚モデルが、よりシンプルでコスト効率のよいSLAMシステムへの一歩となる、信頼性の高いリアルタイムなメートル法スケールの源として、能動深度センサーを置き換えることができることを示唆している。
関連論文リスト
- MCGS-SLAM: A Multi-Camera SLAM Framework Using Gaussian Splatting for High-Fidelity Mapping [52.99503784067417]
3次元ガウス平板上に構築した初のRGBベースのマルチカメラSLAMシステムMCGS-SLAM(3DGS)を提案する。
マルチカメラバンドル調整(MCBA)は、高密度の測光および幾何残差を介してポーズと深さを共同で洗練し、スケール整合モジュールはビューを横断する計量アライメントを強制する。
合成および実世界のデータセットの実験は、MCGS-SLAMが一貫して正確な軌道と光現実的再構成をもたらすことを示している。
論文 参考訳(メタデータ) (2025-09-17T17:27:53Z) - Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。
このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。
提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文 参考訳(メタデータ) (2025-08-06T16:16:58Z) - Dy3DGS-SLAM: Monocular 3D Gaussian Splatting SLAM for Dynamic Environments [5.050525952210101]
モノクロRGB入力を用いた動的シーンのための3次元ガウススティング(3DGS)SLAM法であるDy3DGS-SLAMを提案する。
その結果,Dy3DGS-SLAMは動的環境下での最先端のトラッキングとレンダリングを実現することがわかった。
論文 参考訳(メタデータ) (2025-06-06T10:43:41Z) - HI-SLAM2: Geometry-Aware Gaussian SLAM for Fast Monocular Scene Reconstruction [38.47566815670662]
HI-SLAM2は、RGB入力のみを用いて高速かつ正確な単眼シーン再構築を実現する幾何学的ガウスSLAMシステムである。
既存のニューラルSLAM法よりも大幅に改善され,RGB-D法を上回り,再現性もレンダリング性も向上した。
論文 参考訳(メタデータ) (2024-11-27T01:39:21Z) - MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z) - UncLe-SLAM: Uncertainty Learning for Dense Neural SLAM [60.575435353047304]
我々は、高密度ニューラルネットワークの同時局所化とマッピング(SLAM)のための不確実性学習フレームワークを提案する。
本稿では,2次元入力データのみから自己教師付きで学習可能なセンサ不確実性推定のためのオンラインフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T16:26:25Z) - DVIO: Depth aided visual inertial odometry for RGBD sensors [7.745106319694523]
本稿では、RGBDセンサと慣性計測ユニット(IMU)センサを用いて、モバイルデバイスの動作状態を推定する新しい視覚慣性オドメトリー(VIO)システムを提案する。
このシステムはDVIO(Deep-Aided VIO)システムと呼ばれる。
論文 参考訳(メタデータ) (2021-10-20T22:12:01Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - RGB-D Odometry and SLAM [20.02647320786556]
RGB-Dセンサーは低コストで低消費電力で、LiDARのような従来のレンジセンサーの代替品である。
RGBカメラとは異なり、RGB-Dセンサーは3Dシーン再構成のためのフレーム単位の三角測量の必要性を取り除く追加の深度情報を提供する。
本章は3つの主要な部分から構成される: 第一部では、オドメトリーとSLAMの基本概念を紹介し、RGB-Dセンサーの使用を動機づける。
第2部では、カメラポーズトラッキング、シーンマッピング、ループクローズという、SLAMシステムの主要な3つのコンポーネントについて詳述する。
論文 参考訳(メタデータ) (2020-01-19T17:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。