論文の概要: SeqNetVLAD vs PointNetVLAD: Image Sequence vs 3D Point Clouds for
Day-Night Place Recognition
- arxiv url: http://arxiv.org/abs/2106.11481v1
- Date: Tue, 22 Jun 2021 02:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:15:35.669706
- Title: SeqNetVLAD vs PointNetVLAD: Image Sequence vs 3D Point Clouds for
Day-Night Place Recognition
- Title(参考訳): SeqNetVLAD vs PointNetVLAD:日々の場所認識のための画像シーケンス対3次元点雲
- Authors: Sourav Garg and Michael Milford
- Abstract要約: 位置認識は移動ロボットのローカライゼーションとナビゲーションにとって重要な機能である。
逐次表現に基づく最近のVPR手法は有望な結果を示した。
我々は,3次元点クラウド法と画像シーケンス法を比較した。
- 参考スコア(独自算出の注目度): 31.714928102950594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Place Recognition is a crucial capability for mobile robot localization and
navigation. Image-based or Visual Place Recognition (VPR) is a challenging
problem as scene appearance and camera viewpoint can change significantly when
places are revisited. Recent VPR methods based on ``sequential
representations'' have shown promising results as compared to traditional
sequence score aggregation or single image based techniques. In parallel to
these endeavors, 3D point clouds based place recognition is also being explored
following the advances in deep learning based point cloud processing. However,
a key question remains: is an explicit 3D structure based place representation
always superior to an implicit ``spatial'' representation based on sequence of
RGB images which can inherently learn scene structure. In this extended
abstract, we attempt to compare these two types of methods by considering a
similar ``metric span'' to represent places. We compare a 3D point cloud based
method (PointNetVLAD) with image sequence based methods (SeqNet and others) and
showcase that image sequence based techniques approach, and can even surpass,
the performance achieved by point cloud based methods for a given metric span.
These performance variations can be attributed to differences in data richness
of input sensors as well as data accumulation strategies for a mobile robot.
While a perfect apple-to-apple comparison may not be feasible for these two
different modalities, the presented comparison takes a step in the direction of
answering deeper questions regarding spatial representations, relevant to
several applications like Autonomous Driving and Augmented/Virtual Reality.
Source code available publicly https://github.com/oravus/seqNet.
- Abstract(参考訳): 位置認識は移動ロボットのローカライゼーションとナビゲーションにとって重要な機能である。
画像ベースまたは視覚的位置認識(VPR)は、シーンの外観やカメラ視点が再訪時に大きく変化するため、難しい問題である。
近年,`sequential representations''に基づくvpr手法が従来のシーケンススコア集計や単一画像ベース手法と比較して有望な結果を示している。
これらの取り組みと並行して、3Dポイントクラウドベースの位置認識も、ディープラーニングベースのポイントクラウド処理の進歩に続いて検討されている。
明示的な3d構造に基づく位置表現は、本質的にシーン構造を学習できるrgb画像のシーケンスに基づいて、暗黙の`spatial''表現よりも常に優れている。
この拡張抽象法では,これら2種類の手法を,場所を表す類似の ``metric span''' を考慮して比較する。
3dポイントクラウドベースメソッド(pointnetvlad)と画像シーケンスベースメソッド(seqnetなど)を比較し、その画像シーケンスベース手法のアプローチを示し、所定のメトリックスパンに対してポイントクラウドベースメソッドが達成するパフォーマンスを超越する可能性も示します。
これらの性能の変化は、入力センサーのデータ豊かさと、移動ロボットのデータ蓄積戦略の違いに起因する可能性がある。
appleとappleの完全な比較は、これら2つの異なるモダリティでは実現できないかもしれないが、提示された比較は、自動運転や拡張現実(ar)といったいくつかのアプリケーションに関連する、空間表現に関するより深い質問に答える方向への一歩を踏み出した。
ソースコードはhttps://github.com/oravus/seqnet.com/。
関連論文リスト
- Robust 3D Point Clouds Classification based on Declarative Defenders [18.51700931775295]
3Dポイントの雲は非構造的でスパースであり、2Dイメージは構造的で密度が高い。
本稿では,3次元点雲を2次元画像にマッピングする3つの異なるアルゴリズムについて検討する。
提案手法は敵攻撃に対する高い精度と堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-13T01:32:38Z) - Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。
視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。
視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文 参考訳(メタデータ) (2024-10-08T18:31:41Z) - ModaLink: Unifying Modalities for Efficient Image-to-PointCloud Place Recognition [16.799067323119644]
イメージをエンコードし、クラウドをプレース・ディペンシブ・ディスクリプタに向ける、高速で軽量なフレームワークを紹介します。
本研究では,FoV(FoV)変換モジュールを用いて,点雲を画像に類似したモダリティに変換する手法を提案する。
また、非負の分解に基づくエンコーダを設計し、点群と画像間の相互に一貫した意味的特徴を抽出する。
論文 参考訳(メタデータ) (2024-03-27T17:01:10Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - PosDiffNet: Positional Neural Diffusion for Point Cloud Registration in
a Large Field of View with Perturbations [27.45001809414096]
PosDiffNetは、3Dコンピュータビジョンにおけるポイントクラウド登録のモデルである。
ベルトラミフローに基づくグラフニューラル偏微分方程式(PDE)を用いて高次元特徴を求める。
我々は、点雲間のアライメントを容易にするために、高特徴類似度スコアから導かれる多レベル対応を用いる。
我々はPosDiffNetを複数の3Dポイントクラウドデータセット上で評価し、摂動を伴う広い視野でのポイントクラウド登録において、最先端(SOTA)性能を達成することを検証した。
論文 参考訳(メタデータ) (2024-01-06T08:58:15Z) - Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - ZeroReg: Zero-Shot Point Cloud Registration with Foundation Models [77.84408427496025]
最先端の3Dポイントクラウド登録方法は、トレーニングのためにラベル付き3Dデータセットに依存している。
我々は2次元基礎モデルを用いて3次元対応を予測するゼロショット登録手法であるZeroRegを紹介する。
論文 参考訳(メタデータ) (2023-12-05T11:33:16Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - Robust Place Recognition using an Imaging Lidar [45.37172889338924]
本研究では,画像lidarを用いたロバストなリアルタイム位置認識手法を提案する。
本手法は真不変であり,逆再訪と逆逆再訪に対処できる。
論文 参考訳(メタデータ) (2021-03-03T01:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。