論文の概要: VXP: Voxel-Cross-Pixel Large-scale Image-LiDAR Place Recognition
- arxiv url: http://arxiv.org/abs/2403.14594v2
- Date: Fri, 14 Mar 2025 21:46:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:56:41.066975
- Title: VXP: Voxel-Cross-Pixel Large-scale Image-LiDAR Place Recognition
- Title(参考訳): VXP:Voxel-Cross-Pixelの大規模画像-LiDAR位置認識
- Authors: Yun-Jin Li, Mariia Gladkova, Yan Xia, Rui Wang, Daniel Cremers,
- Abstract要約: クロスモーダル位置認識法は、様々な環境条件とセンサー設定下での柔軟なGPS代替品である。
本稿では,新しいカメラ対LiDAR位置認識フレームワークであるVoxel-Cross-Pixel(VXP)を提案する。
VXPは、自制的なローカル類似性を強制し、画像からグローバルなコンテキストとLiDARスキャンを共有機能空間に効果的に導入する。
- 参考スコア(独自算出の注目度): 40.603362112697255
- License:
- Abstract: Cross-modal place recognition methods are flexible GPS-alternatives under varying environment conditions and sensor setups. However, this task is non-trivial since extracting consistent and robust global descriptors from different modalities is challenging. To tackle this issue, we propose Voxel-Cross-Pixel (VXP), a novel camera-to-LiDAR place recognition framework that enforces local similarities in a self-supervised manner and effectively brings global context from images and LiDAR scans into a shared feature space. Specifically, VXP is trained in three stages: first, we deploy a visual transformer to compactly represent input images. Secondly, we establish local correspondences between image-based and point cloud-based feature spaces using our novel geometric alignment module. We then aggregate local similarities into an expressive shared latent space. Extensive experiments on the three benchmarks (Oxford RobotCar, ViViD++ and KITTI) demonstrate that our method surpasses the state-of-the-art cross-modal retrieval by a large margin. Our evaluations show that the proposed method is accurate, efficient and light-weight. Our project page is available at: https://yunjinli.github.io/projects-vxp/
- Abstract(参考訳): クロスモーダル位置認識法は、様々な環境条件とセンサー設定下での柔軟なGPS代替品である。
しかし、このタスクは、異なるモダリティから一貫性があり堅牢なグローバル記述子を抽出することが難しいため、非自明な作業である。
この問題に対処するために,Voxel-Cross-Pixel (VXP) を提案する。VXPはカメラとLiDARの位置認識フレームワークで,局所的な類似性を自己監督的に実施し,画像とLiDARスキャンのグローバルなコンテキストを共有機能空間に効果的に導入する。
具体的には、VXPは3つの段階で訓練される: まず、入力画像をコンパクトに表現するための視覚変換器をデプロイする。
第2に、新しい幾何アライメントモジュールを用いて、画像ベースと点クラウドベースの特徴空間間の局所対応を確立する。
次に局所類似性を表現的共有潜在空間に集約する。
3つのベンチマーク(Oxford RobotCar, ViViD++, KITTI)において、我々の手法が最先端のクロスモーダル検索をはるかに上回ることを示した。
提案手法は, 精度, 効率, 軽量であることを示す。
私たちのプロジェクトページは以下の通りである。
関連論文リスト
- Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。
視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。
視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文 参考訳(メタデータ) (2024-10-08T18:31:41Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Context and Geometry Aware Voxel Transformer for Semantic Scene Completion [7.147020285382786]
視覚に基づくセマンティックシーンコンプリート(SSC)は、様々な3次元知覚タスクに広く応用されているため、多くの注目を集めている。
既存のスパース・トゥ・デンス・アプローチでは、様々な入力画像間で共有コンテキストに依存しないクエリを使用するのが一般的である。
セマンティックシーン補完を実現するためにCGFormerというニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-05-22T14:16:30Z) - Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - 3rd Place: A Global and Local Dual Retrieval Solution to Facebook AI
Image Similarity Challenge [2.4340897078287815]
本稿では、Facebook AIによって組織された画像類似度チャレンジ(ISC)2021のマッチングトラックに対する3番目のソリューションを提案する。
本稿では,グローバルな記述子とローカルな記述子を組み合わせたマルチブランチ検索手法を提案する。
本稿では,グローバルな特徴と局所的な特徴の相補的な優位性を示すアブレーション実験について述べる。
論文 参考訳(メタデータ) (2021-12-04T16:25:24Z) - CORAL: Colored structural representation for bi-modal place recognition [12.357478978433814]
視覚とLiDARの2つのモードから複合グローバル記述子を抽出できるバイモーダル位置認識法を提案する。
具体的には,まず3次元点から生成された標高像を構造表現として構築する。
次に,3次元点と画像画素の対応関係を導出し,画素単位の視覚的特徴を高架マップグリッドにマージする。
論文 参考訳(メタデータ) (2020-11-22T04:51:40Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。