論文の概要: SaliencyI2PLoc: saliency-guided image-point cloud localization using contrastive learning
- arxiv url: http://arxiv.org/abs/2412.15577v1
- Date: Fri, 20 Dec 2024 05:20:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:21:01.811723
- Title: SaliencyI2PLoc: saliency-guided image-point cloud localization using contrastive learning
- Title(参考訳): Saliency I2PLoc:コントラスト学習を用いたSaliency-Guided Image-point Cloud Localization
- Authors: Yuhao Li, Jianping Li, Zhen Dong, Yuan Wang, Bisheng Yang,
- Abstract要約: SaliencyI2PLocは、Saliencyマップを機能集約に融合させる、対照的な学習アーキテクチャである。
本手法は,都市シナリオ評価データセット上で78.92%のRecall@1と97.59%のRecall@20を実現する。
- 参考スコア(独自算出の注目度): 17.29563451509921
- License:
- Abstract: Image to point cloud global localization is crucial for robot navigation in GNSS-denied environments and has become increasingly important for multi-robot map fusion and urban asset management. The modality gap between images and point clouds poses significant challenges for cross-modality fusion. Current cross-modality global localization solutions either require modality unification, which leads to information loss, or rely on engineered training schemes to encode multi-modality features, which often lack feature alignment and relation consistency. To address these limitations, we propose, SaliencyI2PLoc, a novel contrastive learning based architecture that fuses the saliency map into feature aggregation and maintains the feature relation consistency on multi-manifold spaces. To alleviate the pre-process of data mining, the contrastive learning framework is applied which efficiently achieves cross-modality feature mapping. The context saliency-guided local feature aggregation module is designed, which fully leverages the contribution of the stationary information in the scene generating a more representative global feature. Furthermore, to enhance the cross-modality feature alignment during contrastive learning, the consistency of relative relationships between samples in different manifold spaces is also taken into account. Experiments conducted on urban and highway scenario datasets demonstrate the effectiveness and robustness of our method. Specifically, our method achieves a Recall@1 of 78.92% and a Recall@20 of 97.59% on the urban scenario evaluation dataset, showing an improvement of 37.35% and 18.07%, compared to the baseline method. This demonstrates that our architecture efficiently fuses images and point clouds and represents a significant step forward in cross-modality global localization. The project page and code will be released.
- Abstract(参考訳): イメージ・トゥ・ポイント・クラウド グローバル・ローカライゼーションは, GNSS が定義した環境下でのロボットナビゲーションにおいて重要であり, マルチロボット・マップ・フュージョンや都市資産管理においてますます重要になっている。
画像と点雲の間のモダリティギャップは、相互モダリティ融合に重大な課題をもたらす。
現在のクロスモダリティのグローバルなローカライゼーションソリューションは、情報損失につながるモダリティの統一を必要とするか、多モードの特徴を符号化するためのエンジニアリングされたトレーニングスキームに依存している。
これらの制約に対処するため、SaliencyI2PLocという、新しいコントラスト学習ベースのアーキテクチャを提案し、Saliencyマップを特徴集約に融合させ、多次元空間における特徴関係の整合性を維持する。
データマイニングの事前処理を緩和するため、クロスモーダルな特徴マッピングを効率的に実現するコントラスト学習フレームワークを適用した。
より代表的なグローバルな特徴を生成するシーンにおける静止情報の寄与をフル活用する、コンテキスト・サリエンシ誘導型ローカル特徴集約モジュールを設計する。
さらに, コントラスト学習におけるクロスモーダル特徴整合性を高めるために, 異なる多様体空間における試料間の相対関係の整合性も考慮する。
都市・高速道路シナリオデータセットを用いた実験により,提案手法の有効性とロバスト性を実証した。
具体的には,都市シナリオ評価データセットにおいて,78.92%のRecall@1と97.59%のRecall@20を達成し,ベースライン法と比較して37.35%,18.07%の改善を示した。
このことは、我々のアーキテクチャが画像と点雲を効率的に融合し、国際的モダリティのグローバルなローカライゼーションにおける重要な一歩であることを示している。
プロジェクトページとコードがリリースされる。
関連論文リスト
- Localization, balance and affinity: a stronger multifaceted collaborative salient object detector in remote sensing images [24.06927394483275]
ORSIにおいて,LBA-MCNetと呼ばれる,より強力な多面協調型サリエント物体検出器を提案する。
このネットワークは、ターゲットの正確な位置決め、詳細な機能のバランス、画像レベルのグローバルコンテキスト情報のモデリングに重点を置いている。
論文 参考訳(メタデータ) (2024-10-31T14:50:48Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Multi-Temporal Relationship Inference in Urban Areas [75.86026742632528]
場所間の時間的関係を見つけることは、動的なオフライン広告やスマートな公共交通計画など、多くの都市アプリケーションに役立つ。
空間的に進化するグラフニューラルネットワーク(SEENet)を含むグラフ学習方式によるTrialの解を提案する。
SEConvは時間内アグリゲーションと時間間伝搬を実行し、位置メッセージパッシングの観点から、多面的に空間的に進化するコンテキストをキャプチャする。
SE-SSLは、位置表現学習を強化し、関係の空間性をさらに扱えるように、グローバルな方法でタイムアウェアな自己教師型学習タスクを設計する。
論文 参考訳(メタデータ) (2023-06-15T07:48:32Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Cross-modal Local Shortest Path and Global Enhancement for
Visible-Thermal Person Re-Identification [2.294635424666456]
本稿では,局所的特徴とグローバル的特徴の同時学習に基づく2ストリームネットワークであるCM-LSP-GE(Cross-modal Local Shortest Path and Global Enhancement)モジュールを提案する。
2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T10:27:22Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。
具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。
提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文 参考訳(メタデータ) (2021-04-08T06:48:02Z) - DASGIL: Domain Adaptation for Semantic and Geometric-aware Image-based
Localization [27.294822556484345]
環境変化下での視覚的長期化は、自律走行と移動ロボット工学において難しい問題である。
視覚的位置認識のための多スケール潜在埋め込み表現に幾何学的および意味的情報を融合する新しいマルチタスクアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-01T17:44:25Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。