論文の概要: ModaLink: Unifying Modalities for Efficient Image-to-PointCloud Place Recognition
- arxiv url: http://arxiv.org/abs/2403.18762v1
- Date: Wed, 27 Mar 2024 17:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 15:59:48.025799
- Title: ModaLink: Unifying Modalities for Efficient Image-to-PointCloud Place Recognition
- Title(参考訳): ModaLink: 画像とポイントを効率よく認識するためのモダリティの統合
- Authors: Weidong Xie, Lun Luo, Nanfei Ye, Yi Ren, Shaoyi Du, Minhang Wang, Jintao Xu, Rui Ai, Weihao Gu, Xieyuanli Chen,
- Abstract要約: イメージをエンコードし、クラウドをプレース・ディペンシブ・ディスクリプタに向ける、高速で軽量なフレームワークを紹介します。
本研究では,FoV(FoV)変換モジュールを用いて,点雲を画像に類似したモダリティに変換する手法を提案する。
また、非負の分解に基づくエンコーダを設計し、点群と画像間の相互に一貫した意味的特徴を抽出する。
- 参考スコア(独自算出の注目度): 16.799067323119644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Place recognition is an important task for robots and autonomous cars to localize themselves and close loops in pre-built maps. While single-modal sensor-based methods have shown satisfactory performance, cross-modal place recognition that retrieving images from a point-cloud database remains a challenging problem. Current cross-modal methods transform images into 3D points using depth estimation for modality conversion, which are usually computationally intensive and need expensive labeled data for depth supervision. In this work, we introduce a fast and lightweight framework to encode images and point clouds into place-distinctive descriptors. We propose an effective Field of View (FoV) transformation module to convert point clouds into an analogous modality as images. This module eliminates the necessity for depth estimation and helps subsequent modules achieve real-time performance. We further design a non-negative factorization-based encoder to extract mutually consistent semantic features between point clouds and images. This encoder yields more distinctive global descriptors for retrieval. Experimental results on the KITTI dataset show that our proposed methods achieve state-of-the-art performance while running in real time. Additional evaluation on the HAOMO dataset covering a 17 km trajectory further shows the practical generalization capabilities. We have released the implementation of our methods as open source at: https://github.com/haomo-ai/ModaLink.git.
- Abstract(参考訳): 位置認識は、ロボットや自動運転車が自らをローカライズし、事前に構築された地図のループを閉じるための重要なタスクである。
単一モードのセンサベースの手法は良好な性能を示したが、ポイントクラウドデータベースから画像を取得するためのクロスモーダルな位置認識は依然として難しい問題である。
現在のクロスモーダル法では、画像の深度推定を用いて3Dポイントに変換するが、これは通常計算集約的で、深度監視のための高価なラベル付きデータを必要とする。
本研究では,画像のエンコードとクラウドを位置識別記述子に変換するための,高速で軽量なフレームワークを提案する。
本研究では,FoV(FoV)変換モジュールを用いて,点雲を画像に類似したモダリティに変換する手法を提案する。
このモジュールは深さ推定の必要性を排除し、その後のモジュールがリアルタイムのパフォーマンスを達成するのを助ける。
さらに、非負の分解に基づくエンコーダを設計し、点群と画像間の相互に一貫した意味的特徴を抽出する。
このエンコーダは、検索のためのより独特なグローバルな記述子を生成する。
KITTIデータセットを用いた実験結果から,提案手法はリアルタイムに動作しながら,最先端の性能を実現することができることがわかった。
17kmの軌道をカバーしたHAOMOデータセットのさらなる評価は、実用的な一般化能力を示している。
https://github.com/haomo-ai/ModaLink.git。
関連論文リスト
- FASTC: A Fast Attentional Framework for Semantic Traversability Classification Using Point Cloud [7.711666704468952]
点雲を用いたトラバーサビリティ評価の問題に対処する。
本稿では,垂直に配置された点雲から特徴を捉えるために PointNet を利用した柱状特徴抽出モジュールを提案する。
次に、LIDAR点雲の密度問題に適切に対応できる多フレーム情報を融合する新しい時間的アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-06-24T12:01:55Z) - I2P-Rec: Recognizing Images on Large-scale Point Cloud Maps through
Bird's Eye View Projections [18.7557037030769]
位置認識は、完全な自律性を達成するための、自動運転車にとって重要な技術である。
クロスモーダルデータを同じモダリティに変換することで,I2P-Rec法を提案する。
トレーニングデータの小さなセットだけで、I2P-Recはポイントクラウドマップ上のモノクロ画像とステレオ画像のローカライズ時に、80%と90%でトップ1%のリコール率を達成する。
論文 参考訳(メタデータ) (2023-03-02T07:56:04Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Let Images Give You More:Point Cloud Cross-Modal Training for Shape
Analysis [43.13887916301742]
本稿では、ポイントクラウド分析を促進するために、シンプルだが効果的なポイントクラウドクロスモダリティトレーニング(PointCMT)戦略を導入する。
ビューイメージから補助的知識を効果的に獲得するために,教師学生のための枠組みを開発し,知識蒸留問題としてクロスモーダル学習を定式化する。
我々は、魅力的なバックボーン、すなわちPointCMT、PointNet++、PointMLPを備えた様々なデータセットにおいて、大きな利益を検証した。
論文 参考訳(メタデータ) (2022-10-09T09:35:22Z) - Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network [70.53093934205057]
ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T12:35:34Z) - VPIT: Real-time Embedded Single Object 3D Tracking Using Voxel Pseudo Images [90.60881721134656]
本稿では,Voxel Pseudo Image Tracking (VPIT) という,Voxel-based 3D Single Object Tracking (3D SOT) 手法を提案する。
KITTI追跡データセットの実験は、VPITが最速の3D SOT法であり、競合的な成功と精度の値を維持することを示している。
論文 参考訳(メタデータ) (2022-06-06T14:02:06Z) - SeqNetVLAD vs PointNetVLAD: Image Sequence vs 3D Point Clouds for
Day-Night Place Recognition [31.714928102950594]
位置認識は移動ロボットのローカライゼーションとナビゲーションにとって重要な機能である。
逐次表現に基づく最近のVPR手法は有望な結果を示した。
我々は,3次元点クラウド法と画像シーケンス法を比較した。
論文 参考訳(メタデータ) (2021-06-22T02:05:32Z) - Robust Place Recognition using an Imaging Lidar [45.37172889338924]
本研究では,画像lidarを用いたロバストなリアルタイム位置認識手法を提案する。
本手法は真不変であり,逆再訪と逆逆再訪に対処できる。
論文 参考訳(メタデータ) (2021-03-03T01:08:31Z) - Segment as Points for Efficient Online Multi-Object Tracking and
Segmentation [66.03023110058464]
本稿では,コンパクトな画像表現を非秩序な2次元点クラウド表現に変換することで,セグメントに基づくインスタンス埋め込みの学習に有効な方法を提案する。
本手法は,画像ではなく,ランダムに選択された点から識別インスタンスの埋め込みを学習する,新たなトラッキング・バイ・ポイントのパラダイムを生成する。
PointTrackという名前のオンラインMOTSフレームワークは、最先端のすべてのメソッドを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-07-03T08:29:35Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。