論文の概要: Multi-modal Loop Closure Detection with Foundation Models in Severely Unstructured Environments
- arxiv url: http://arxiv.org/abs/2511.05404v1
- Date: Fri, 07 Nov 2025 16:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.837642
- Title: Multi-modal Loop Closure Detection with Foundation Models in Severely Unstructured Environments
- Title(参考訳): 重度非構造環境における基礎モデルによるマルチモーダルループクロージャ検出
- Authors: Laura Alejandra Encinar Gonzalez, John Folkesson, Rudolph Triebel, Riccardo Giubilato,
- Abstract要約: 本稿では,マルチモーダルパイプラインであるMPRFについて述べる。
S3LIデータセットとS3LI Vulcanoデータセットの実験は、MPRFが最先端の検索方法よりも精度が高いことを示している。
SLAMバックエンドに適した解釈可能な対応を提供することにより、MPRFは精度、効率、信頼性の間の良好なトレードオフを達成する。
- 参考スコア(独自算出の注目度): 10.028232479762075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust loop closure detection is a critical component of Simultaneous Localization and Mapping (SLAM) algorithms in GNSS-denied environments, such as in the context of planetary exploration. In these settings, visual place recognition often fails due to aliasing and weak textures, while LiDAR-based methods suffer from sparsity and ambiguity. This paper presents MPRF, a multimodal pipeline that leverages transformer-based foundation models for both vision and LiDAR modalities to achieve robust loop closure in severely unstructured environments. Unlike prior work limited to retrieval, MPRF integrates a two-stage visual retrieval strategy with explicit 6-DoF pose estimation, combining DINOv2 features with SALAD aggregation for efficient candidate screening and SONATA-based LiDAR descriptors for geometric verification. Experiments on the S3LI dataset and S3LI Vulcano dataset show that MPRF outperforms state-of-the-art retrieval methods in precision while enhancing pose estimation robustness in low-texture regions. By providing interpretable correspondences suitable for SLAM back-ends, MPRF achieves a favorable trade-off between accuracy, efficiency, and reliability, demonstrating the potential of foundation models to unify place recognition and pose estimation. Code and models will be released at github.com/DLR-RM/MPRF.
- Abstract(参考訳): ロバストループクロージャ検出は、惑星探査の文脈など、GNSSが定義した環境におけるSLAMアルゴリズムの重要な構成要素である。
これらの設定では、視覚的位置認識はしばしばエイリアスと弱いテクスチャによって失敗する。
本稿では,過酷な非構造環境下での堅牢なループ閉鎖を実現するために,トランスフォーマーベース基盤モデルを用いた多モードパイプラインであるMPRFを提案する。
検索に制限された以前の作業とは異なり、MPRFは2段階の視覚検索戦略と明示的な6-DoFポーズ推定を統合し、DINOv2特徴と効率的な候補検定のためのSALADアグリゲーションと幾何学的検証のためのSONATAベースのLiDAR記述子を組み合わせた。
S3LIデータセットとS3LI Vulcanoデータセットの実験により、MPRFは、低テクスチャ領域におけるポーズ推定ロバスト性を高めながら、最先端の検索手法よりも精度が高いことが示された。
SLAMバックエンドに適した解釈可能な対応を提供することにより、MPRFは精度、効率、信頼性のトレードオフを実現し、位置認識とポーズ推定を統一する基礎モデルの可能性を実証する。
コードとモデルはgithub.com/DLR-RM/MPRFでリリースされる。
関連論文リスト
- Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - D$^2$GS: Depth-and-Density Guided Gaussian Splatting for Stable and Accurate Sparse-View Reconstruction [73.61056394880733]
3D Gaussian Splatting (3DGS)は、3D表現を明示したリアルタイムかつ高忠実なノベルビュー合成(NVS)を可能にする。
疎視条件下では,カメラ近傍のガウス密度が過大な地域での過度適合と,ガウス範囲が不十分な遠隔地での過度適合の2つの重要な障害モードを同定する。
本稿では,奥行き案内型ドロップアウト戦略と距離認識型フィデリティ拡張モジュールという,2つの主要なコンポーネントからなる統合フレームワークD$2$GSを提案する。
論文 参考訳(メタデータ) (2025-10-09T17:59:49Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - LDRFusion: A LiDAR-Dominant multimodal refinement framework for 3D object detection [5.820124526272312]
既存のLiDAR-Camera融合法は3次元物体検出において大きな成果を上げている。
我々は,LDRFusionを提案する。LDRFusionは,マルチセンサフュージョンのための新しい2段階改良フレームワークである。
当社のフレームワークは,複数のカテゴリと難易度をまたいだパフォーマンスを継続的に達成しています。
論文 参考訳(メタデータ) (2025-07-22T04:35:52Z) - Hi^2-GSLoc: Dual-Hierarchical Gaussian-Specific Visual Relocalization for Remote Sensing [6.997091164331322]
リモートセンシングやUAVアプリケーションには、視覚的再ローカライゼーションが不可欠である。
画像に基づく検索とポーズ回帰アプローチは精度に欠ける。
スパース・トゥ・デンス(sparse-to-dense)と粗粒度(arse-to-fine)のパラダイムに従う二重階層的再ローカライゼーションフレームワークである$mathrmHi2$-GSLocを紹介した。
論文 参考訳(メタデータ) (2025-07-21T14:47:56Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Lightweight Deep Learning Framework for Accurate Particle Flow Energy Reconstruction [8.598010350935596]
本稿では,ディープラーニング再構築の枠組みを体系的に評価する。
重み付き平均2乗と誤差構造類似度指数を組み合わせたハイブリッド損失関数を設計する。
我々は,モーダル時間的相関とエネルギー変位非線形性を捉えるモデルの能力を強化する。
論文 参考訳(メタデータ) (2024-10-08T11:49:18Z) - Leveraging Neural Radiance Field in Descriptor Synthesis for Keypoints Scene Coordinate Regression [1.2974519529978974]
本稿では,Neural Radiance Field (NeRF) を用いたキーポイント記述子合成のためのパイプラインを提案する。
新たなポーズを生成してトレーニングされたNeRFモデルに入力して新しいビューを生成することで、当社のアプローチは、データスカース環境でのKSCRの機能を強化します。
提案システムは,最大50%のローカライズ精度向上を実現し,データ合成に要するコストをわずかに抑えることができた。
論文 参考訳(メタデータ) (2024-03-15T13:40:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。