論文の概要: MASt3R-Fusion: Integrating Feed-Forward Visual Model with IMU, GNSS for High-Functionality SLAM
- arxiv url: http://arxiv.org/abs/2509.20757v1
- Date: Thu, 25 Sep 2025 05:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.707003
- Title: MASt3R-Fusion: Integrating Feed-Forward Visual Model with IMU, GNSS for High-Functionality SLAM
- Title(参考訳): MASt3R-Fusion:高機能SLAMのためのフィードフォワード視覚モデルとIMU, GNSSの統合
- Authors: Yuxuan Zhou, Xingxing Li, Shengyu Li, Zhuohao Yan, Chunxi Xia, Shaoquan Feng,
- Abstract要約: フィードフォワード・ポイントマップ・レグレッションと相補的なセンサ情報を統合するマルチセンサ支援視覚SLAMフレームワークMASt3R-Fusionを提案する。
実時間スライディングウインドウ最適化とアグレッシブループ閉鎖を伴う大域的最適化の両立が可能な階層的因子グラフ設計法を開発した。
我々は、公開ベンチマークと自己収集データセットの両方に対するアプローチを評価し、精度とロバスト性を大幅に改善したことを示す。
- 参考スコア(独自算出の注目度): 12.158063913401575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual SLAM is a cornerstone technique in robotics, autonomous driving and extended reality (XR), yet classical systems often struggle with low-texture environments, scale ambiguity, and degraded performance under challenging visual conditions. Recent advancements in feed-forward neural network-based pointmap regression have demonstrated the potential to recover high-fidelity 3D scene geometry directly from images, leveraging learned spatial priors to overcome limitations of traditional multi-view geometry methods. However, the widely validated advantages of probabilistic multi-sensor information fusion are often discarded in these pipelines. In this work, we propose MASt3R-Fusion,a multi-sensor-assisted visual SLAM framework that tightly integrates feed-forward pointmap regression with complementary sensor information, including inertial measurements and GNSS data. The system introduces Sim(3)-based visualalignment constraints (in the Hessian form) into a universal metric-scale SE(3) factor graph for effective information fusion. A hierarchical factor graph design is developed, which allows both real-time sliding-window optimization and global optimization with aggressive loop closures, enabling real-time pose tracking, metric-scale structure perception and globally consistent mapping. We evaluate our approach on both public benchmarks and self-collected datasets, demonstrating substantial improvements in accuracy and robustness over existing visual-centered multi-sensor SLAM systems. The code will be released open-source to support reproducibility and further research (https://github.com/GREAT-WHU/MASt3R-Fusion).
- Abstract(参考訳): 視覚SLAMは、ロボット工学、自律運転、拡張現実(XR)において基礎となる技術であるが、古典的なシステムは、しばしば低テクスチャ環境、曖昧さのスケール、そして困難な視覚条件下での性能低下に苦しむ。
フィードフォワードニューラルネットワークに基づくポイントマップ回帰の最近の進歩は、画像から直接高忠実度3Dシーンの形状を復元する可能性を示し、学習された空間的先行を利用して従来のマルチビュー幾何手法の限界を克服している。
しかし、確率的マルチセンサー情報融合の広く検証された利点は、これらのパイプラインでしばしば破棄される。
本研究では,複数センサによる視覚SLAMフレームワークであるMASt3R-Fusionを提案する。
このシステムは、(ヘッセン形式の)シム(3)に基づく視覚配向制約を、効果的な情報融合のための普遍的な計量スケールSE(3)因子グラフに導入する。
実時間スライディングウインドウ最適化とアグレッシブループクロージャによる大域的最適化を実現し,リアルタイムポーズトラッキング,メトリックスケール構造認識,大域的一貫したマッピングを実現した階層的因子グラフ設計法を開発した。
我々は、既存の視覚中心型マルチセンサーSLAMシステムよりも精度と堅牢性を大幅に向上させることで、公開ベンチマークと自己収集データセットの両方に対するアプローチを評価した。
再現性とさらなる研究(https://github.com/GREAT-WHU/MASt3R-Fusion)をサポートするために、コードはオープンソースとしてリリースされる。
関連論文リスト
- RLGF: Reinforcement Learning with Geometric Feedback for Autonomous Driving Video Generation [75.61028930882144]
この重要な問題を特定し定量化し,合成データと実データを用いた場合の3次元物体検出における顕著な性能差を示す。
本稿では,RLGFを用いた強化学習(Reinforcement Learning with Geometric Feedback, RLGF)を紹介する。
RLGFは幾何誤差(例えばVPエラーを21%、深さエラーを57%)を大幅に削減し、3Dオブジェクト検出のmAPを12.7%改善し、実際のデータ性能のギャップを狭める。
論文 参考訳(メタデータ) (2025-09-20T02:23:36Z) - MCGS-SLAM: A Multi-Camera SLAM Framework Using Gaussian Splatting for High-Fidelity Mapping [52.99503784067417]
3次元ガウス平板上に構築した初のRGBベースのマルチカメラSLAMシステムMCGS-SLAM(3DGS)を提案する。
マルチカメラバンドル調整(MCBA)は、高密度の測光および幾何残差を介してポーズと深さを共同で洗練し、スケール整合モジュールはビューを横断する計量アライメントを強制する。
合成および実世界のデータセットの実験は、MCGS-SLAMが一貫して正確な軌道と光現実的再構成をもたらすことを示している。
論文 参考訳(メタデータ) (2025-09-17T17:27:53Z) - Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。
このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。
提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文 参考訳(メタデータ) (2025-08-06T16:16:58Z) - GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field [17.57215792490409]
GSFF-SLAMは3次元ガウススプラッティングに基づく新しい意味論的SLAMシステムである。
提案手法は, 様々な2次元先行情報, 特にスパース信号と雑音信号を用いた意味的再構成を支援する。
2D基底真理を利用する場合、GSFF-SLAMは95.03% mIoUで最先端のセマンティックセグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2025-04-28T01:21:35Z) - GeoFlow-SLAM: A Robust Tightly-Coupled RGBD-Inertial and Legged Odometry Fusion SLAM for Dynamic Legged Robotics [12.041115472752594]
GeoFlow-SLAMは、攻撃的かつ高周波な動作を行うロボティクスのための堅牢で効果的なRGBD慣性SLAMである。
本手法は,テクスチャレスシーンにおける特徴マッチングと視覚的特徴障害の3つの重要な課題に対処する。
提案アルゴリズムは,収集した脚ロボットとオープンソースデータセット上で,最先端のSOTA(State-of-the-art)を実現する。
論文 参考訳(メタデータ) (2025-03-18T13:35:49Z) - GS-LIVO: Real-Time LiDAR, Inertial, and Visual Multi-sensor Fused Odometry with Gaussian Mapping [22.432252084121274]
LiDAR-Inertial-Visual (LIV) センサの構成は、ローカライゼーションと高密度マッピングにおいて優れた性能を示している。
本稿では,新しいリアルタイムガウス型同時ローカライズ・マッピングシステムを提案する。
このフレームワークは、堅牢なマルチセンサー融合機能を維持しながら、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-15T09:04:56Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。