論文の概要: Semantic-Enhanced Cross-Modal Place Recognition for Robust Robot Localization
- arxiv url: http://arxiv.org/abs/2509.13474v1
- Date: Tue, 16 Sep 2025 19:17:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.62287
- Title: Semantic-Enhanced Cross-Modal Place Recognition for Robust Robot Localization
- Title(参考訳): ロバストロボット位置認識のためのセマンティック型クロスモーダル位置認識
- Authors: Yujia Lin, Nicholas Evans,
- Abstract要約: 我々はSemantic-Enhanced Cross-Modal Place Recognition (SCM-PR)と呼ぶフレームワークを導入する。
SCM-PRは、RGB画像を利用した高レベルセマンティクスを組み合わせることで、LiDARマップのロバストなローカライゼーションを実現する。
KITTIとKITTI-360データセットに関する実験研究は、SCM-PRが最先端の性能を達成することを示す。
- 参考スコア(独自算出の注目度): 1.2031796234206136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring accurate localization of robots in environments without GPS capability is a challenging task. Visual Place Recognition (VPR) techniques can potentially achieve this goal, but existing RGB-based methods are sensitive to changes in illumination, weather, and other seasonal changes. Existing cross-modal localization methods leverage the geometric properties of RGB images and 3D LiDAR maps to reduce the sensitivity issues highlighted above. Currently, state-of-the-art methods struggle in complex scenes, fine-grained or high-resolution matching, and situations where changes can occur in viewpoint. In this work, we introduce a framework we call Semantic-Enhanced Cross-Modal Place Recognition (SCM-PR) that combines high-level semantics utilizing RGB images for robust localization in LiDAR maps. Our proposed method introduces: a VMamba backbone for feature extraction of RGB images; a Semantic-Aware Feature Fusion (SAFF) module for using both place descriptors and segmentation masks; LiDAR descriptors that incorporate both semantics and geometry; and a cross-modal semantic attention mechanism in NetVLAD to improve matching. Incorporating the semantic information also was instrumental in designing a Multi-View Semantic-Geometric Matching and a Semantic Consistency Loss, both in a contrastive learning framework. Our experimental work on the KITTI and KITTI-360 datasets show that SCM-PR achieves state-of-the-art performance compared to other cross-modal place recognition methods.
- Abstract(参考訳): GPS機能のない環境におけるロボットの正確な位置決めは難しい課題である。
視覚的位置認識(VPR)技術はこの目標を達成する可能性があるが、既存のRGBベースの手法は照明、天気、その他の季節変化に敏感である。
既存のクロスモーダルなローカライゼーション手法は、RGB画像と3次元LiDARマップの幾何学的特性を利用して、上述した感度問題を軽減している。
現在、最先端の手法は複雑なシーン、きめ細かいか高解像度のマッチング、そして視点で変化が起こる状況で苦労している。
本研究では,SCM-PR(Semantic-Enhanced Cross-Modal Place Recognition)と呼ばれる,RGB画像を用いた高レベルのセマンティクスを組み合わせて,LiDARマップのロバストなローカライゼーションを実現するフレームワークを提案する。
提案手法では,RGB画像の特徴抽出のためのVMambaバックボーン,位置記述子とセグメンテーションマスクの両方を使用するセマンティック・アウェア・フィーチャー・フュージョン(SAFF)モジュール,意味論と幾何学の両方を組み込んだLiDARディスクリプタ,マッチングを改善するためのNetVLADのクロスモーダルセマンティックアテンション機構を紹介する。
セマンティック・ジオメトリ・マッチングとセマンティック・一貫性損失を対比学習フレームワークで設計する上でも,セマンティック・セマンティック・セマンティック・マッチングを組み込むことが重要である。
KITTIとKITTI-360データセットの実験的研究により、SCM-PRは、他のクロスモーダルな位置認識法と比較して、最先端の性能を達成することが示された。
関連論文リスト
- GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - TASeg: Text-aware RGB-T Semantic Segmentation based on Fine-tuning Vision Foundation Models [26.983562312613877]
本稿では,ローランド適応(LoRA)ファインチューニング技術を用いたテキスト認識RGB-Tセグメンテーションフレームワークを提案する。
具体的には,画像エンコーダにおける動的特徴融合モジュール (DFFM) を提案する。
論文 参考訳(メタデータ) (2025-06-27T07:34:28Z) - STAMICS: Splat, Track And Map with Integrated Consistency and Semantics for Dense RGB-D SLAM [8.208389210258593]
本稿では,3次元ガウス表現と意味情報を統合して局所化とマッピングの精度を向上させる新しい手法STAMICSを紹介する。
実験により、STAMICSはカメラのポーズ推定とマップの品質を著しく改善し、再現誤差を低減しつつ、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-03-27T12:10:51Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Position-Aware Relation Learning for RGB-Thermal Salient Object
Detection [3.115635707192086]
我々は,Swin Transformerに基づくRGB-T SODのための位置認識型関係学習ネットワーク(PRLNet)を提案する。
PRLNetは、クラス内コンパクト性とクラス間分離を強化するために、ピクセル間の距離と方向の関係を探索する。
さらに、RGB-T SODのマルチスペクトル特徴表現を強化するために、純粋なトランスフォーマーエンコーダデコーダネットワークを構成する。
論文 参考訳(メタデータ) (2022-09-21T07:34:30Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。