論文の概要: BEV2PR: BEV-Enhanced Visual Place Recognition with Structural Cues
- arxiv url: http://arxiv.org/abs/2403.06600v1
- Date: Mon, 11 Mar 2024 10:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 19:21:56.349675
- Title: BEV2PR: BEV-Enhanced Visual Place Recognition with Structural Cues
- Title(参考訳): BEV2PR:構造的キューを用いたBEVによる視覚的位置認識
- Authors: Fudong Ge, Yiwei Zhang, Shuhan Shen, Yue Wang, Weiming Hu, Jin Gao
- Abstract要約: 本稿では,鳥眼ビュー(BEV)における構造的手がかりを1台のカメラから活用して,画像に基づく視覚的位置認識(VPR)フレームワークを提案する。
我々のBEV2PRフレームワークは、いくつかの人気のあるカメラベースのVPRアグリゲーションモジュールに対して、一貫したパフォーマンス改善を可能にする。
- 参考スコア(独自算出の注目度): 47.64221212502507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a new image-based visual place recognition (VPR)
framework by exploiting the structural cues in bird's-eye view (BEV) from a
single monocular camera. The motivation arises from two key observations about
VPR: 1) For the methods based on both camera and LiDAR sensors, the integration
of LiDAR in robotic systems has led to increased expenses, while the alignment
of data between different sensors is also a major challenge. 2) Other
image-/camera-based methods, involving integrating RGB images and their derived
variants (e.g., pseudo depth images, pseudo 3D point clouds), exhibit several
limitations, such as the failure to effectively exploit the explicit spatial
relationships between different objects. To tackle the above issues, we design
a new BEV-enhanced VPR framework, nemely BEV2PR, which can generate a composite
descriptor with both visual cues and spatial awareness solely based on a single
camera. For the visual cues, any popular aggregation module for RGB global
features can be integrated into our framework. The key points lie in: 1) We use
BEV segmentation features as an explicit source of structural knowledge in
constructing global features. 2) The lower layers of the pre-trained backbone
from BEV map generation are shared for visual and structural streams in VPR,
facilitating the learning of fine-grained local features in the visual stream.
3) The complementary visual features and structural features can jointly
enhance VPR performance. Our BEV2PR framework enables consistent performance
improvements over several popular camera-based VPR aggregation modules when
integrating them. The experiments on our collected VPR-NuScenes dataset
demonstrate an absolute gain of 2.47% on Recall@1 for the strong Conv-AP
baseline to achieve the best performance in our setting, and notably, a 18.06%
gain on the hard set.
- Abstract(参考訳): 本稿では,単一単眼カメラから鳥眼ビュー(BEV)の構造的手がかりを利用して,画像に基づく視覚的位置認識(VPR)フレームワークを提案する。
動機は、VPRに関する2つの重要な観察から生じる。
1)カメラとLiDARの両方をベースとした手法では,ロボットシステムへのLiDARの統合がコストの増大につながっており,センサ間のデータのアライメントも大きな課題となっている。
2)RGB画像とその派生した変種(擬似深度画像や擬似3D点雲など)の統合を含む他の画像・カメラベースの手法では、異なるオブジェクト間の空間的関係を効果的に利用できないなど、いくつかの制限がある。
上記の課題に対処するため,視覚的手がかりと空間認識を両立させた複合ディスクリプタを1台のカメラで生成できる新しいBEV拡張型VPRフレームワークであるBEV2PRを設計した。
ビジュアルなキューでは、RGBグローバル機能用の一般的なアグリゲーションモジュールは、私たちのフレームワークに統合できます。
主なポイントは次のとおりである。
1)グローバルな機能構築における構造知識の明確な源として,BEVセグメンテーション機能を用いる。
2)VPRの視覚的および構造的ストリームに対して,BEVマップ生成からの事前学習したバックボーンの下位層を共有し,視覚的ストリームの微細な局所的特徴の学習を容易にする。
3)視覚的特徴と構造的特徴は共同でVPR性能を向上させることができる。
我々のBEV2PRフレームワークは、カメラベースのVPRアグリゲーションモジュールを統合する際の一貫したパフォーマンス向上を可能にする。
収集したVPR-NuScenesデータセットの実験では、強力なConv-APベースラインであるRecall@1では2.47%が絶対的に向上し、私たちの設定で最高のパフォーマンスを実現しています。
関連論文リスト
- OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - IFTR: An Instance-Level Fusion Transformer for Visual Collaborative Perception [9.117534139771738]
自律運転の分野で広く認知されている技術として、マルチエージェント協調認識が出現している。
現在のコラボレーティブな認識は、主にLiDAR点雲に依存しており、カメラ画像を用いた手法にはあまり注目されていない。
本研究は,視覚的協調知覚のためのインスタンスレベルの融合変換器を提案する。
論文 参考訳(メタデータ) (2024-07-13T11:38:15Z) - Improving Bird's Eye View Semantic Segmentation by Task Decomposition [42.57351039508863]
元のBEVセグメンテーションタスクを,BEVマップ再構成とRGB-BEV機能アライメントという2つの段階に分割する。
我々のアプローチは、知覚と生成を異なるステップに組み合わせることの複雑さを単純化し、複雑で挑戦的なシーンを効果的に扱うためのモデルを構築します。
論文 参考訳(メタデータ) (2024-04-02T13:19:45Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - EVP: Enhanced Visual Perception using Inverse Multi-Attentive Feature
Refinement and Regularized Image-Text Alignment [40.328294121805456]
この研究は、コンピュータビジョンタスクにStable Diffusionネットワークを使用する方法を舗装した以前のVPDに基づいている。
Inverse Multi-Attentive Feature Refinement (IMAFR) モジュールを開発した。
第2に、安定拡散バックボーンの特徴抽出を改善するための新しい画像テキストアライメントモジュールを提案する。
論文 参考訳(メタデータ) (2023-12-13T22:20:45Z) - Leveraging BEV Representation for 360-degree Visual Place Recognition [14.497501941931759]
本稿では,360度視覚位置認識(VPR)におけるBird's Eye View表現の利点について検討する。
本稿では,特徴抽出,特徴集約,視覚-LiDAR融合におけるBEV表現を利用した新しいネットワークアーキテクチャを提案する。
提案手法は,2つのデータセットのアブレーションおよび比較研究において評価される。
論文 参考訳(メタデータ) (2023-05-23T08:29:42Z) - BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View
Images [20.30997801125592]
位置認識における異なる表現の可能性、すなわち鳥の視線(BEV)画像について検討する。
BEV画像上で訓練された単純なVGGNetは、わずかな視点変化のシーンにおける最先端の場所認識手法と同等のパフォーマンスを達成する。
そこで我々は,クエリクラウドの位置を推定し,位置認識の利用を拡大する手法を開発した。
論文 参考訳(メタデータ) (2023-02-28T05:37:45Z) - StructVPR: Distill Structural Knowledge with Weighting Samples for
Visual Place Recognition [49.58170209388029]
視覚的位置認識(VPR)は通常、特定の画像検索問題と見なされる。
我々は、RGBグローバル機能における構造的知識を高めるために、VPRのための新しいトレーニングアーキテクチャであるStructVPRを提案する。
計算コストを低く保ちながら最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-12-02T02:52:01Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。