論文の概要: SaliencyI2PLoc: saliency-guided image-point cloud localization using contrastive learning
- arxiv url: http://arxiv.org/abs/2412.15577v1
- Date: Fri, 20 Dec 2024 05:20:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 18:46:08.833833
- Title: SaliencyI2PLoc: saliency-guided image-point cloud localization using contrastive learning
- Title(参考訳): Saliency I2PLoc:コントラスト学習を用いたSaliency-Guided Image-point Cloud Localization
- Authors: Yuhao Li, Jianping Li, Zhen Dong, Yuan Wang, Bisheng Yang,
- Abstract要約: SaliencyI2PLocは、Saliencyマップを機能集約に融合させる、対照的な学習アーキテクチャである。
本手法は,都市シナリオ評価データセット上で78.92%のRecall@1と97.59%のRecall@20を実現する。
- 参考スコア(独自算出の注目度): 17.29563451509921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image to point cloud global localization is crucial for robot navigation in GNSS-denied environments and has become increasingly important for multi-robot map fusion and urban asset management. The modality gap between images and point clouds poses significant challenges for cross-modality fusion. Current cross-modality global localization solutions either require modality unification, which leads to information loss, or rely on engineered training schemes to encode multi-modality features, which often lack feature alignment and relation consistency. To address these limitations, we propose, SaliencyI2PLoc, a novel contrastive learning based architecture that fuses the saliency map into feature aggregation and maintains the feature relation consistency on multi-manifold spaces. To alleviate the pre-process of data mining, the contrastive learning framework is applied which efficiently achieves cross-modality feature mapping. The context saliency-guided local feature aggregation module is designed, which fully leverages the contribution of the stationary information in the scene generating a more representative global feature. Furthermore, to enhance the cross-modality feature alignment during contrastive learning, the consistency of relative relationships between samples in different manifold spaces is also taken into account. Experiments conducted on urban and highway scenario datasets demonstrate the effectiveness and robustness of our method. Specifically, our method achieves a Recall@1 of 78.92% and a Recall@20 of 97.59% on the urban scenario evaluation dataset, showing an improvement of 37.35% and 18.07%, compared to the baseline method. This demonstrates that our architecture efficiently fuses images and point clouds and represents a significant step forward in cross-modality global localization. The project page and code will be released.
- Abstract(参考訳): イメージ・トゥ・ポイント・クラウド グローバル・ローカライゼーションは, GNSS が定義した環境下でのロボットナビゲーションにおいて重要であり, マルチロボット・マップ・フュージョンや都市資産管理においてますます重要になっている。
画像と点雲の間のモダリティギャップは、相互モダリティ融合に重大な課題をもたらす。
現在のクロスモダリティのグローバルなローカライゼーションソリューションは、情報損失につながるモダリティの統一を必要とするか、多モードの特徴を符号化するためのエンジニアリングされたトレーニングスキームに依存している。
これらの制約に対処するため、SaliencyI2PLocという、新しいコントラスト学習ベースのアーキテクチャを提案し、Saliencyマップを特徴集約に融合させ、多次元空間における特徴関係の整合性を維持する。
データマイニングの事前処理を緩和するため、クロスモーダルな特徴マッピングを効率的に実現するコントラスト学習フレームワークを適用した。
より代表的なグローバルな特徴を生成するシーンにおける静止情報の寄与をフル活用する、コンテキスト・サリエンシ誘導型ローカル特徴集約モジュールを設計する。
さらに, コントラスト学習におけるクロスモーダル特徴整合性を高めるために, 異なる多様体空間における試料間の相対関係の整合性も考慮する。
都市・高速道路シナリオデータセットを用いた実験により,提案手法の有効性とロバスト性を実証した。
具体的には,都市シナリオ評価データセットにおいて,78.92%のRecall@1と97.59%のRecall@20を達成し,ベースライン法と比較して37.35%,18.07%の改善を示した。
このことは、我々のアーキテクチャが画像と点雲を効率的に融合し、国際的モダリティのグローバルなローカライゼーションにおける重要な一歩であることを示している。
プロジェクトページとコードがリリースされる。
関連論文リスト
- Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization [2.733505168507872]
CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。
既存の手法は、モデルの性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。
マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:38Z) - World-Consistent Data Generation for Vision-and-Language Navigation [52.08816337783936]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。
VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。
多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文 参考訳(メタデータ) (2024-12-09T11:40:54Z) - Localization, balance and affinity: a stronger multifaceted collaborative salient object detector in remote sensing images [24.06927394483275]
ORSIにおいて,LBA-MCNetと呼ばれる,より強力な多面協調型サリエント物体検出器を提案する。
このネットワークは、ターゲットの正確な位置決め、詳細な機能のバランス、画像レベルのグローバルコンテキスト情報のモデリングに重点を置いている。
論文 参考訳(メタデータ) (2024-10-31T14:50:48Z) - Federated Multi-Agent Mapping for Planetary Exploration [0.4143603294943439]
本稿では,データ共有を必要とせず,エージェント間で集中マップモデルを共同で学習する手法を提案する。
我々のアプローチは暗黙のニューラルマッピングを利用して、パシモニアスで適応可能な表現を生成する。
火星の地形と氷河のデータセットを用いたフェデレーションマッピング手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-02T20:32:32Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Multi-Temporal Relationship Inference in Urban Areas [75.86026742632528]
場所間の時間的関係を見つけることは、動的なオフライン広告やスマートな公共交通計画など、多くの都市アプリケーションに役立つ。
空間的に進化するグラフニューラルネットワーク(SEENet)を含むグラフ学習方式によるTrialの解を提案する。
SEConvは時間内アグリゲーションと時間間伝搬を実行し、位置メッセージパッシングの観点から、多面的に空間的に進化するコンテキストをキャプチャする。
SE-SSLは、位置表現学習を強化し、関係の空間性をさらに扱えるように、グローバルな方法でタイムアウェアな自己教師型学習タスクを設計する。
論文 参考訳(メタデータ) (2023-06-15T07:48:32Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - Cross-modal Local Shortest Path and Global Enhancement for
Visible-Thermal Person Re-Identification [2.294635424666456]
本稿では,局所的特徴とグローバル的特徴の同時学習に基づく2ストリームネットワークであるCM-LSP-GE(Cross-modal Local Shortest Path and Global Enhancement)モジュールを提案する。
2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T10:27:22Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。
具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。
提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文 参考訳(メタデータ) (2021-04-08T06:48:02Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。