論文の概要: Text-Driven Cross-Modal Place Recognition Method for Remote Sensing Localization
- arxiv url: http://arxiv.org/abs/2503.18035v1
- Date: Sun, 23 Mar 2025 11:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:35.000324
- Title: Text-Driven Cross-Modal Place Recognition Method for Remote Sensing Localization
- Title(参考訳): テキスト駆動型リモートセンシング位置認識法
- Authors: Tianyi Shang, Zhenyu Li, Pengjie Xu, Zhaojun Deng, Ruirui Zhang,
- Abstract要約: Des4Posは、新しい2段階のテキスト駆動型リモートセンシングローカライゼーションフレームワークである。
トップ1の精度は40%、トップ10の精度は半径5mの閾値で77%に達する。
KITTI360Poseテストセットの実験では、テキスト・ツー・ポイント・クラウドの場所認識におけるDes4Posの最先端性能が実証された。
- 参考スコア(独自算出の注目度): 2.3093110834423616
- License:
- Abstract: Environment description-based localization in large-scale point cloud maps constructed through remote sensing is critically significant for the advancement of large-scale autonomous systems, such as delivery robots operating in the last mile. However, current approaches encounter challenges due to the inability of point cloud encoders to effectively capture local details and long-range spatial relationships, as well as a significant modality gap between text and point cloud representations. To address these challenges, we present Des4Pos, a novel two-stage text-driven remote sensing localization framework. In the coarse stage, the point-cloud encoder utilizes the Multi-scale Fusion Attention Mechanism (MFAM) to enhance local geometric features, followed by a bidirectional Long Short-Term Memory (LSTM) module to strengthen global spatial relationships. Concurrently, the Stepped Text Encoder (STE) integrates cross-modal prior knowledge from CLIP [1] and aligns text and point-cloud features using this prior knowledge, effectively bridging modality discrepancies. In the fine stage, we introduce a Cascaded Residual Attention (CRA) module to fuse cross-modal features and predict relative localization offsets, thereby achieving greater localization precision. Experiments on the KITTI360Pose test set demonstrate that Des4Pos achieves state-of-the-art performance in text-to-point-cloud place recognition. Specifically, it attains a top-1 accuracy of 40% and a top-10 accuracy of 77% under a 5-meter radius threshold, surpassing the best existing methods by 7% and 7%, respectively.
- Abstract(参考訳): リモートセンシングによって構築された大規模ポイントクラウドマップにおける環境記述に基づくローカライゼーションは,最終マイルで稼働する配送ロボットなどの大規模自律システムの発展に極めて重要である。
しかし、現在のアプローチでは、ポイントクラウドエンコーダが局所的な詳細や長距離空間的関係を効果的に捉えることができず、テキストとポイントクラウドの表現の間に大きなモダリティのギャップがあるため、課題に直面している。
これらの課題に対処するため、新しい2段階のテキスト駆動リモートセンシングローカライゼーションフレームワークであるDes4Posを紹介した。
粗い段階では、ポイントクラウドエンコーダはMFAM(Multiscale Fusion Attention Mechanism)を使用して局所的な幾何学的特徴を強化する。
同時に、Stepped Text Encoder (STE)はCLIP [1]からのクロスモーダルな事前知識を統合し、この事前知識を使用してテキストとポイントクラウドの機能を調整し、効果的にモダリティの相違を埋める。
細かな段階では、クロスモーダルな特徴を融合し、相対的な局所化オフセットを予測するためにカスケード残留注意(CRA)モジュールを導入し、より正確な位置化を実現する。
KITTI360Poseテストセットの実験では、Des4Posがテキスト・ツー・ポイント・クラウドの場所認識において最先端のパフォーマンスを達成することを示した。
具体的には、トップ1の精度40%、トップ10の精度77%を半径5mの閾値で達成し、それぞれ最良の既存手法を7%、そして7%を上回っている。
関連論文リスト
- MambaPlace:Text-to-Point-Cloud Cross-Modal Place Recognition with Attention Mamba Mechanisms [2.4775350526606355]
視覚言語位置認識(VLVPR)は、画像から自然言語記述を組み込むことで、ロボットのローカライズ性能を向上させる。
言語情報を利用することで、VLVPRはロボットの位置マッチングを指示し、視覚のみに依存する制約を克服する。
本稿では,MambaPlace と呼ばれる相互接続型位置認識フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-28T12:06:11Z) - Local All-Pair Correspondence for Point Tracking [59.76186266230608]
ビデオシーケンス間の任意の点(TAP)を追跡するタスクのために設計された,高精度かつ効率的なモデルであるLocoTrackを紹介する。
LocoTrackは、すべてのTAP-Vidベンチマークで未整合の精度を実現し、現在の最先端の約6倍の速度で動作している。
論文 参考訳(メタデータ) (2024-07-22T06:49:56Z) - Instance-free Text to Point Cloud Localization with Relative Position Awareness [37.22900045434484]
テキスト・ツー・ポイント・クラウド クロスモーダル・ローカライゼーションは、未来のロボットと人間のコラボレーションにとって重要な視覚言語タスクである。
既存のアプローチの2つの重要な制限に対処する: 1) 地中実例への依存を入力とし、2) 潜在事例間の相対的な位置を無視する。
提案モデルは,テキストセル検索のための粗いステージと位置推定のための微細なステージを含む,2段階のパイプラインに従う。
論文 参考訳(メタデータ) (2024-04-27T09:46:49Z) - Bridging the Gap Between End-to-End and Two-Step Text Spotting [88.14552991115207]
ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。
提案手法の有効性を広範囲な実験により実証する。
論文 参考訳(メタデータ) (2024-04-06T13:14:04Z) - Multiway Point Cloud Mosaicking with Diffusion and Global Optimization [74.3802812773891]
マルチウェイポイントクラウドモザイクのための新しいフレームワーク(水曜日)を紹介する。
我々のアプローチの核心は、重複を識別し、注意点を洗練する学習されたペアワイズ登録アルゴリズムODINである。
4つの多種多様な大規模データセットを用いて、我々の手法は、全てのベンチマークにおいて大きなマージンで、最先端のペアとローテーションの登録結果を比較した。
論文 参考訳(メタデータ) (2024-03-30T17:29:13Z) - Point Cloud Mamba: Point Cloud Learning via State Space Model [73.7454734756626]
我々は,マンバをベースとしたポイントクラウド法が,トランスフォーマや多層パーセプトロン(MLP)に基づく従来手法よりも優れていることを示す。
特に,マルチ層パーセプトロン(MLP)を用いて,マンバをベースとした点雲法が従来手法より優れていることを示す。
Point Cloud Mambaは、最先端(SOTA)のポイントベースメソッドであるPointNeXtを超え、ScanNN、ModelNet40、ShapeNetPart、S3DISデータセット上での新たなSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-01T18:59:03Z) - Cross-modal Learning of Graph Representations using Radar Point Cloud
for Long-Range Gesture Recognition [6.9545038359818445]
長距離(1m~2m)ジェスチャー認識のための新しいアーキテクチャを提案する。
私たちは、カメラポイントクラウドから60GHzのFMCWレーダポイントクラウドまで、ポイントクラウドベースのクロスラーニングアプローチを使用します。
実験結果では,5つのジェスチャーに対して98.4%の総合精度と一般化能力を示す。
論文 参考訳(メタデータ) (2022-03-31T14:34:36Z) - Fast and Robust Registration of Partially Overlapping Point Clouds [5.073765501263891]
部分的に重なる点雲のリアルタイム登録は、自動運転車の協調認識に新たな応用をもたらす。
これらのアプリケーションにおける点雲間の相対的な変換は、従来のSLAMやオドメトリーアプリケーションよりも高い。
本稿では,効率の良い特徴エンコーダを用いて対応を学習する部分重複点群に対する新しい登録法を提案する。
論文 参考訳(メタデータ) (2021-12-18T12:39:05Z) - Point Cloud Segmentation Using Sparse Temporal Local Attention [30.969737698335944]
そこで本稿では,従来のクラウドフレーム内の局所的特徴を集約した,スパース時間的局所的注意(STELA)モジュールを提案する。
SemanticKittiデータセットで64.3%の競合的なmIoUを実現し、単一フレームベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-12-01T06:00:50Z) - SOE-Net: A Self-Attention and Orientation Encoding Network for Point
Cloud based Place Recognition [50.9889997200743]
我々は、自己アテンション・指向性符号化ネットワーク(SOE-Net)を用いて、ポイントクラウドデータから位置認識する問題に取り組む。
SOE-Netは、ポイント間の関係を完全に探求し、長距離コンテキストをポイントワイドなローカル記述子に組み込む。
様々なベンチマークデータセットの実験では、現在の最先端アプローチよりも提案したネットワークの性能が優れていることが示されている。
論文 参考訳(メタデータ) (2020-11-24T22:28:25Z) - RPM-Net: Robust Point Matching using Learned Features [79.52112840465558]
RPM-Netは、より敏感で、より堅牢なディープラーニングベースのアプローチである。
既存の方法とは異なり、我々のRPM-Netは、部分的な可視性を備えた対応や点雲の欠如を処理します。
論文 参考訳(メタデータ) (2020-03-30T13:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。