論文の概要: Leveraging BEV Representation for 360-degree Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2305.13814v1
- Date: Tue, 23 May 2023 08:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:59:18.444435
- Title: Leveraging BEV Representation for 360-degree Visual Place Recognition
- Title(参考訳): 360度視覚的位置認識のためのBEV表現の活用
- Authors: Xuecheng Xu, Yanmei Jiao, Sha Lu, Xiaqing Ding, Rong Xiong, Yue Wang
- Abstract要約: 本稿では,360度視覚位置認識(VPR)におけるBird's Eye View表現の利点について検討する。
本稿では,特徴抽出,特徴集約,視覚-LiDAR融合におけるBEV表現を利用した新しいネットワークアーキテクチャを提案する。
提案手法は,2つのデータセットのアブレーションおよび比較研究において評価される。
- 参考スコア(独自算出の注目度): 14.497501941931759
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper investigates the advantages of using Bird's Eye View (BEV)
representation in 360-degree visual place recognition (VPR). We propose a novel
network architecture that utilizes the BEV representation in feature
extraction, feature aggregation, and vision-LiDAR fusion, which bridges visual
cues and spatial awareness. Our method extracts image features using standard
convolutional networks and combines the features according to pre-defined 3D
grid spatial points. To alleviate the mechanical and time misalignments between
cameras, we further introduce deformable attention to learn the compensation.
Upon the BEV feature representation, we then employ the polar transform and the
Discrete Fourier transform for aggregation, which is shown to be
rotation-invariant. In addition, the image and point cloud cues can be easily
stated in the same coordinates, which benefits sensor fusion for place
recognition. The proposed BEV-based method is evaluated in ablation and
comparative studies on two datasets, including on-the-road and off-the-road
scenarios. The experimental results verify the hypothesis that BEV can benefit
VPR by its superior performance compared to baseline methods. To the best of
our knowledge, this is the first trial of employing BEV representation in this
task.
- Abstract(参考訳): 本稿では,360度視覚位置認識 (vpr) における鳥の目視 (bev) 表現の利点について検討する。
本稿では,bev表現を特徴抽出,特徴集約,視覚・ライダー融合に活用し,視覚の手がかりと空間認識を橋渡しする新しいネットワークアーキテクチャを提案する。
本手法は,標準畳み込みネットワークを用いて画像特徴を抽出し,予め定義された3次元グリッド空間点に応じて特徴を合成する。
カメラ間の機械的・時間的ミスアライメントを軽減するため,補正の学習のために変形可能な注意を導入する。
次に、bev特徴表現に基づいて、極変換と離散フーリエ変換をアグリゲーションに適用し、回転不変であることが示される。
さらに、画像と点雲の手がかりを同じ座標で簡単に記述することができ、位置認識のためのセンサ融合の恩恵を受ける。
提案するbevに基づく手法は,2つのデータを用いたアブレーションおよび比較研究において評価されている。
実験の結果,bevはベースライン法よりも優れた性能でvprに有益であるという仮説を検証した。
私たちの知る限りでは、このタスクにBEV表現を採用する最初の試みである。
関連論文リスト
- Improving Bird's Eye View Semantic Segmentation by Task Decomposition [42.57351039508863]
元のBEVセグメンテーションタスクを,BEVマップ再構成とRGB-BEV機能アライメントという2つの段階に分割する。
我々のアプローチは、知覚と生成を異なるステップに組み合わせることの複雑さを単純化し、複雑で挑戦的なシーンを効果的に扱うためのモデルを構築します。
論文 参考訳(メタデータ) (2024-04-02T13:19:45Z) - BEV$^2$PR: BEV-Enhanced Visual Place Recognition with Structural Cues [44.96177875644304]
本稿では,鳥眼ビュー(BEV)における構造的手がかりを1台のカメラから活用して,画像に基づく視覚的位置認識(VPR)フレームワークを提案する。
BEV$2$PRフレームワークは、単一のカメラに基づいて視覚的手がかりと空間的認識の両方を持つ複合記述子を生成する。
論文 参考訳(メタデータ) (2024-03-11T10:46:43Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View
Images [20.30997801125592]
位置認識における異なる表現の可能性、すなわち鳥の視線(BEV)画像について検討する。
BEV画像上で訓練された単純なVGGNetは、わずかな視点変化のシーンにおける最先端の場所認識手法と同等のパフォーマンスを達成する。
そこで我々は,クエリクラウドの位置を推定し,位置認識の利用を拡大する手法を開発した。
論文 参考訳(メタデータ) (2023-02-28T05:37:45Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。