論文の概要: VXP: Voxel-Cross-Pixel Large-scale Image-LiDAR Place Recognition
- arxiv url: http://arxiv.org/abs/2403.14594v1
- Date: Thu, 21 Mar 2024 17:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:10:20.572084
- Title: VXP: Voxel-Cross-Pixel Large-scale Image-LiDAR Place Recognition
- Title(参考訳): VXP:Voxel-Cross-Pixelの大規模画像-LiDAR位置認識
- Authors: Yun-Jin Li, Mariia Gladkova, Yan Xia, Rui Wang, Daniel Cremers,
- Abstract要約: 本稿では,Voxel-Cross-Pixel (VXP) アプローチを提案する。
VXPは、まずローカルな特徴対応を明示的に活用し、グローバルな記述子の類似性を強制する2段階の方法で訓練されている。
我々の手法は、最先端のクロスモーダル検索を大きなマージンで上回る。
- 参考スコア(独自算出の注目度): 40.603362112697255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works on the global place recognition treat the task as a retrieval problem, where an off-the-shelf global descriptor is commonly designed in image-based and LiDAR-based modalities. However, it is non-trivial to perform accurate image-LiDAR global place recognition since extracting consistent and robust global descriptors from different domains (2D images and 3D point clouds) is challenging. To address this issue, we propose a novel Voxel-Cross-Pixel (VXP) approach, which establishes voxel and pixel correspondences in a self-supervised manner and brings them into a shared feature space. Specifically, VXP is trained in a two-stage manner that first explicitly exploits local feature correspondences and enforces similarity of global descriptors. Extensive experiments on the three benchmarks (Oxford RobotCar, ViViD++ and KITTI) demonstrate our method surpasses the state-of-the-art cross-modal retrieval by a large margin.
- Abstract(参考訳): 近年のグローバルプレース認識における課題は,画像ベースおよびLiDARに基づくモダリティにおいて,市販のグローバルディスクリプタが一般的に設計される検索問題として扱われている。
しかし、異なる領域(2D画像と3Dポイントクラウド)から一貫した堅牢なグローバル記述子を抽出することは困難であるため、正確な画像-LiDARグローバル位置認識を行うのは容易ではない。
この問題に対処するために,Voxel-Cross-Pixel (VXP) アプローチを提案する。
具体的には、VXPは、まずローカルな特徴対応を明示的に活用し、グローバルな記述子の類似性を強制する2段階の方法で訓練される。
3つのベンチマーク(Oxford RobotCar, ViViD++, KITTI)において、我々の手法が最先端のクロスモーダル検索をはるかに上回ることを示した。
関連論文リスト
- Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。
視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。
視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文 参考訳(メタデータ) (2024-10-08T18:31:41Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Context and Geometry Aware Voxel Transformer for Semantic Scene Completion [7.147020285382786]
視覚に基づくセマンティックシーンコンプリート(SSC)は、様々な3次元知覚タスクに広く応用されているため、多くの注目を集めている。
既存のスパース・トゥ・デンス・アプローチでは、様々な入力画像間で共有コンテキストに依存しないクエリを使用するのが一般的である。
セマンティックシーン補完を実現するためにCGFormerというニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-05-22T14:16:30Z) - Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - 3rd Place: A Global and Local Dual Retrieval Solution to Facebook AI
Image Similarity Challenge [2.4340897078287815]
本稿では、Facebook AIによって組織された画像類似度チャレンジ(ISC)2021のマッチングトラックに対する3番目のソリューションを提案する。
本稿では,グローバルな記述子とローカルな記述子を組み合わせたマルチブランチ検索手法を提案する。
本稿では,グローバルな特徴と局所的な特徴の相補的な優位性を示すアブレーション実験について述べる。
論文 参考訳(メタデータ) (2021-12-04T16:25:24Z) - CORAL: Colored structural representation for bi-modal place recognition [12.357478978433814]
視覚とLiDARの2つのモードから複合グローバル記述子を抽出できるバイモーダル位置認識法を提案する。
具体的には,まず3次元点から生成された標高像を構造表現として構築する。
次に,3次元点と画像画素の対応関係を導出し,画素単位の視覚的特徴を高架マップグリッドにマージする。
論文 参考訳(メタデータ) (2020-11-22T04:51:40Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。