論文の概要: Have We Mastered Scale in Deep Monocular Visual SLAM? The ScaleMaster Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2602.18174v1
- Date: Fri, 20 Feb 2026 12:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.594286
- Title: Have We Mastered Scale in Deep Monocular Visual SLAM? The ScaleMaster Dataset and Benchmark
- Title(参考訳): 深い単眼のビジュアルSLAMでスケールを習得したか? ScaleMasterデータセットとベンチマーク
- Authors: Hyoseok Ju, Bokeon Suh, Giseop Kim,
- Abstract要約: 我々は,挑戦的なシナリオ下でのスケール一貫性を評価するために明示的に設計された最初のベンチマークを紹介する。
不整合を拡大するために,最先端の深部単眼視覚SLAMシステムの脆弱性を系統的に解析する。
以上の結果から,近年の深部モノクラー視覚SLAMシステムは,既存のベンチマークでは高い性能を示したが,現実的で大規模屋内環境では,大規模なスケール障害に悩まされていることが明らかとなった。
- 参考スコア(独自算出の注目度): 3.1007425074240866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep monocular visual Simultaneous Localization and Mapping (SLAM) have achieved impressive accuracy and dense reconstruction capabilities, yet their robustness to scale inconsistency in large-scale indoor environments remains largely unexplored. Existing benchmarks are limited to room-scale or structurally simple settings, leaving critical issues of intra-session scale drift and inter-session scale ambiguity insufficiently addressed. To fill this gap, we introduce the ScaleMaster Dataset, the first benchmark explicitly designed to evaluate scale consistency under challenging scenarios such as multi-floor structures, long trajectories, repetitive views, and low-texture regions. We systematically analyze the vulnerability of state-of-the-art deep monocular visual SLAM systems to scale inconsistency, providing both quantitative and qualitative evaluations. Crucially, our analysis extends beyond traditional trajectory metrics to include a direct map-to-map quality assessment using metrics like Chamfer distance against high-fidelity 3D ground truth. Our results reveal that while recent deep monocular visual SLAM systems demonstrate strong performance on existing benchmarks, they suffer from severe scale-related failures in realistic, large-scale indoor environments. By releasing the ScaleMaster dataset and baseline results, we aim to establish a foundation for future research toward developing scale-consistent and reliable visual SLAM systems.
- Abstract(参考訳): 近年の深部単眼視覚的局所マッピング(SLAM)の進歩は, 目覚しい精度と高密度再構成機能を実現しているが, 大規模屋内環境における不整合性に対する頑健性はほとんど未解明である。
既存のベンチマークは、ルームスケールまたは構造的に単純な設定に限られており、セッションスケール内のドリフトとセッションスケール間のあいまいさが不十分な重要な問題を残している。
このギャップを埋めるために,マルチフロア構造,長い軌跡,反復ビュー,低テクスチャ領域といった難易度シナリオ下でのスケール一貫性を評価するために設計された最初のベンチマークであるScaleMaster Datasetを紹介した。
現状の深層単眼視SLAMシステムの脆弱性を系統的に解析し、不整合を拡大し、定量評価と定性評価の両方を提供する。
重要な点として、我々の分析は従来の軌跡の指標を超えて、チャムファー距離などの指標を高忠実な3D地上真実に対して直接マップ・ツー・マップの品質評価を含むように拡張しています。
以上の結果から,近年の深部モノクラー視覚SLAMシステムは,既存のベンチマークでは高い性能を示したが,現実的で大規模屋内環境では,大規模なスケール障害に悩まされていることが明らかとなった。
ScaleMasterデータセットとベースライン結果をリリースすることにより、スケール一貫性と信頼性のあるビジュアルSLAMシステムの開発に向けた将来の研究の基盤を確立することを目指している。
関連論文リスト
- From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - Benchmarking Egocentric Visual-Inertial SLAM at City Scale [50.1245744173948]
本稿では,エゴセントリックなマルチモーダルデータを用いた視覚慣性SLAMのための新しいデータセットとベンチマークを提案する。
我々は、様々なセンサーを備えたメガネのような装置で、市内の中心部を何時間、何キロもの軌跡を記録している。
アカデミックによって開発された最先端のシステムは、これらの課題に対して堅牢ではないことを示し、これに責任を負うコンポーネントを特定します。
論文 参考訳(メタデータ) (2025-09-30T17:59:31Z) - UnLoc: Leveraging Depth Uncertainties for Floorplan Localization [80.55849461031879]
UnLocはフロアプラン内のシーケンシャルカメラローカライゼーションのための効率的なデータ駆動ソリューションである。
本研究では,不確実性推定を組み込んだ新しい確率モデルを導入し,深度予測を明示的な確率分布としてモデル化する。
我々はUnLocを大規模合成および実世界のデータセット上で評価し、精度とロバスト性の観点から大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-09-14T14:45:43Z) - Underwater Monocular Metric Depth Estimation: Real-World Benchmarks and Synthetic Fine-Tuning with Vision Foundation Models [0.0]
実世界の水中データセットを用いたゼロショットおよび微調整単分子メートル法深度推定モデルのベンチマークを示す。
その結果,地上データ(実データや合成データ)に基づいて訓練した大規模モデルでは,水中での作業は不十分であることがわかった。
本研究では,水中における単分子距離深度推定の詳細な評価と可視化を行う。
論文 参考訳(メタデータ) (2025-07-02T21:06:39Z) - Survey on Monocular Metric Depth Estimation [2.436681150766912]
単分子距離推定(MMDE)は絶対スケールの深度マップを生成し、幾何整合性を確保する。
本調査では,幾何に基づく手法から最先端の深層モデルまで,MMDEの進化を概観する。
方法論の進歩は、領域の一般化、境界保存、および合成データと実データの統合を網羅して分析される。
論文 参考訳(メタデータ) (2025-01-21T02:51:10Z) - TanDepth: Leveraging Global DEMs for Metric Monocular Depth Estimation in UAVs [5.6168844664788855]
本研究は,推定時間における相対的推定から距離深度を求めるための実用的スケール回復手法であるTanDepthを提示する。
提案手法は,GDEM(Global Digital Elevation Models)のスパース計測をカメラビューに投影することで活用する。
推定深度マップから接地点を選択して、投影された基準点と相関するクラスフィルタシミュレーションへの適応を示す。
論文 参考訳(メタデータ) (2024-09-08T15:54:43Z) - Self-Supervised Geometry-Guided Initialization for Robust Monocular Visual Odometry [14.542198678410095]
学習に基づく高密度SLAM法は、そのような障害に対処するために反復的な高密度バンドル調整を利用する。
その可能性にもかかわらず、この手法は大きな動きとオブジェクトのダイナミクスを含むシナリオといまだに苦労している。
本研究では, 凍結した大規模単分子深度推定器を用いて, 密集束調整過程を初期化する自己教師付き事前推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T01:59:29Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z) - Pseudo RGB-D for Self-Improving Monocular SLAM and Depth Prediction [72.30870535815258]
モノクロ深度予測のためのCNNは、周囲の環境の3Dマップを構築するための2つの大きく不連続なアプローチを表している。
本稿では,CNN予測深度を利用してRGB-D特徴量に基づくSLAMを行う,狭義の広義の自己改善フレームワークを提案する。
一方、より原理化された幾何学的SLAMの3次元シーン構造とカメラポーズは、新しい広義のベースライン損失により奥行きネットワークに注入される。
論文 参考訳(メタデータ) (2020-04-22T16:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。