論文の概要: CORAL: Colored structural representation for bi-modal place recognition
- arxiv url: http://arxiv.org/abs/2011.10934v2
- Date: Mon, 19 Jul 2021 11:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 12:07:34.442601
- Title: CORAL: Colored structural representation for bi-modal place recognition
- Title(参考訳): サンゴ:バイモーダル位置認識のためのカラー構造表現
- Authors: Yiyuan Pan, Xuecheng Xu, Weijie Li, Yunxiang Cui, Yue Wang, Rong Xiong
- Abstract要約: 視覚とLiDARの2つのモードから複合グローバル記述子を抽出できるバイモーダル位置認識法を提案する。
具体的には,まず3次元点から生成された標高像を構造表現として構築する。
次に,3次元点と画像画素の対応関係を導出し,画素単位の視覚的特徴を高架マップグリッドにマージする。
- 参考スコア(独自算出の注目度): 12.357478978433814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Place recognition is indispensable for a drift-free localization system. Due
to the variations of the environment, place recognition using single-modality
has limitations. In this paper, we propose a bi-modal place recognition method,
which can extract a compound global descriptor from the two modalities, vision
and LiDAR. Specifically, we first build the elevation image generated from 3D
points as a structural representation. Then, we derive the correspondences
between 3D points and image pixels that are further used in merging the
pixel-wise visual features into the elevation map grids. In this way, we fuse
the structural features and visual features in the consistent bird-eye view
frame, yielding a semantic representation, namely CORAL. And the whole network
is called CORAL-VLAD. Comparisons on the Oxford RobotCar show that CORAL-VLAD
has superior performance against other state-of-the-art methods. We also
demonstrate that our network can be generalized to other scenes and sensor
configurations on cross-city datasets.
- Abstract(参考訳): ドリフトフリーのローカライゼーションシステムには位置認識が不可欠である。
環境の変化のため、単一モダリティを用いた位置認識には限界がある。
本稿では、視覚とLiDARの2つのモードから複合グローバル記述子を抽出できるバイモーダル位置認識法を提案する。
具体的には,まず3dポイントから生成した標高画像を構造表現として構築する。
次に、3d点と画像画素の対応関係を導出し、さらに画素単位の視覚的特徴を標高マップグリッドに融合する。
このようにして、一貫した鳥眼ビューフレームの構造的特徴と視覚的特徴を融合させ、意味表現、すなわちコラルを生成する。
そしてネットワーク全体がCORAL-VLADと呼ばれる。
オックスフォード・ロボットカーの比較では、コラルVLADは他の最先端の手法よりも優れた性能を示している。
また,我々のネットワークを,都市間データセット上の他のシーンやセンサ構成に一般化できることを実証した。
関連論文リスト
- Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。
視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。
視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文 参考訳(メタデータ) (2024-10-08T18:31:41Z) - Context and Geometry Aware Voxel Transformer for Semantic Scene Completion [7.147020285382786]
視覚に基づくセマンティックシーンコンプリート(SSC)は、様々な3次元知覚タスクに広く応用されているため、多くの注目を集めている。
既存のスパース・トゥ・デンス・アプローチでは、様々な入力画像間で共有コンテキストに依存しないクエリを使用するのが一般的である。
セマンティックシーン補完を実現するためにCGFormerというニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-05-22T14:16:30Z) - VXP: Voxel-Cross-Pixel Large-scale Image-LiDAR Place Recognition [40.603362112697255]
本稿では,Voxel-Cross-Pixel (VXP) アプローチを提案する。
VXPは、まずローカルな特徴対応を明示的に活用し、グローバルな記述子の類似性を強制する2段階の方法で訓練されている。
我々の手法は、最先端のクロスモーダル検索を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-03-21T17:49:26Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - P2-Net: Joint Description and Detection of Local Features for Pixel and
Point Matching [78.18641868402901]
この研究は、2D画像と3D点雲の微粒な対応を確立するための取り組みである。
画素領域と点領域の固有情報変動を緩和するために,新しい損失関数と組み合わせた超広帯域受信機構を設計した。
論文 参考訳(メタデータ) (2021-03-01T14:59:40Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。