論文の概要: MinkLoc++: Lidar and Monocular Image Fusion for Place Recognition
- arxiv url: http://arxiv.org/abs/2104.05327v2
- Date: Wed, 14 Apr 2021 10:02:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 12:36:21.885574
- Title: MinkLoc++: Lidar and Monocular Image Fusion for Place Recognition
- Title(参考訳): MinkLoc++: 位置認識のためのライダーと単分子画像融合
- Authors: Jacek Komorowski, Monika Wysoczanska, Tomasz Trzcinski
- Abstract要約: 本稿では,LiDARからの点雲とRGBカメラからの画像という,一対のセンサ読み取りに基づく識別型マルチモーダルディスクリプタを提案する。
当社のディスクリプタminkloc++は、ロボットや自動運転車のアプリケーションにおける場所認識、再ローカライズ、ループクロージャの目的に使用できる。
- 参考スコア(独自算出の注目度): 15.662820454886202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a discriminative multimodal descriptor based on a pair of sensor
readings: a point cloud from a LiDAR and an image from an RGB camera. Our
descriptor, named MinkLoc++, can be used for place recognition, re-localization
and loop closure purposes in robotics or autonomous vehicles applications. We
use late fusion approach, where each modality is processed separately and fused
in the final part of the processing pipeline. The proposed method achieves
state-of-the-art performance on standard place recognition benchmarks. We also
identify dominating modality problem when training a multimodal descriptor. The
problem manifests itself when the network focuses on a modality with a larger
overfit to the training data. This drives the loss down during the training but
leads to suboptimal performance on the evaluation set. In this work we describe
how to detect and mitigate such risk when using a deep metric learning approach
to train a multimodal neural network. Our code is publicly available on the
project website: https://github.com/jac99/MinkLocMultimodal.
- Abstract(参考訳): 本稿では,LiDARからの点雲とRGBカメラからの画像という,一対のセンサ読み取りに基づく識別型マルチモーダルディスクリプタを提案する。
当社のディスクリプタminkloc++は、ロボットや自動運転車のアプリケーションにおける場所認識、再ローカライズ、ループクロージャの目的に使用できる。
我々は、各モードを別々に処理し、処理パイプラインの最終部分で融合するレイト・フュージョン・アプローチを用いる。
提案手法は,標準位置認識ベンチマークにおける最先端性能を実現する。
また,マルチモーダルディスクリプタをトレーニングする場合,支配的モダリティ問題を同定する。
この問題は、ネットワークがトレーニングデータにより大きな適合度を持つモダリティに焦点を合わせると現れる。
これにより、トレーニング中の損失は減少するが、評価セットの最適でないパフォーマンスにつながる。
本稿では,マルチモーダルニューラルネットワークを訓練する深層メトリック学習手法を用いて,そのようなリスクの検出と軽減について述べる。
私たちのコードはプロジェクトのWebサイト(https://github.com/jac99/MinkLocMultimodal.com)で公開されています。
関連論文リスト
- ModaLink: Unifying Modalities for Efficient Image-to-PointCloud Place Recognition [16.799067323119644]
イメージをエンコードし、クラウドをプレース・ディペンシブ・ディスクリプタに向ける、高速で軽量なフレームワークを紹介します。
本研究では,FoV(FoV)変換モジュールを用いて,点雲を画像に類似したモダリティに変換する手法を提案する。
また、非負の分解に基づくエンコーダを設計し、点群と画像間の相互に一貫した意味的特徴を抽出する。
論文 参考訳(メタデータ) (2024-03-27T17:01:10Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - UnLoc: A Universal Localization Method for Autonomous Vehicles using
LiDAR, Radar and/or Camera Input [51.150605800173366]
UnLocは、全ての気象条件におけるマルチセンサー入力によるローカライズのための、新しい統一型ニューラルネットワークアプローチである。
本手法は,Oxford Radar RobotCar,Apollo SouthBay,Perth-WAの各データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-07-03T04:10:55Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - UAMD-Net: A Unified Adaptive Multimodal Neural Network for Dense Depth
Completion [0.618778092044887]
両眼ステレオマッチングの融合とスパース点雲からの弱い制約に基づく,新しいマルチモーダルニューラルネットワークUAMD-Netを提案する。
提案手法はロバストな結果を生成し,他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-16T12:49:50Z) - MultiRes-NetVLAD: Augmenting Place Recognition Training with
Low-Resolution Imagery [28.875236694573815]
我々は低解像度画像ピラミッド符号化によるNetVLAD表現学習を強化した。
結果として得られる多重解像度特徴ピラミッドは、VLADを介して1つのコンパクト表現に便利に集約することができる。
基礎となる学習機能テンソルと既存のマルチスケールアプローチを組み合わせることで,ベースライン性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-18T11:53:01Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - Key Points Estimation and Point Instance Segmentation Approach for Lane
Detection [65.37887088194022]
本稿では,PINet (Point Instance Network) と呼ばれるトラヒックライン検出手法を提案する。
PINetには、同時にトレーニングされる複数のスタックされた時間ガラスネットワークが含まれている。
PINetはTuSimpleとCulaneのデータセットで競合精度と偽陽性を達成する。
論文 参考訳(メタデータ) (2020-02-16T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。