論文の概要: BEV-Locator: An End-to-end Visual Semantic Localization Network Using
Multi-View Images
- arxiv url: http://arxiv.org/abs/2211.14927v1
- Date: Sun, 27 Nov 2022 20:24:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:28:22.618623
- Title: BEV-Locator: An End-to-end Visual Semantic Localization Network Using
Multi-View Images
- Title(参考訳): bev-locator:マルチビュー画像を用いたエンド・ツー・エンドのビジュアルセマンティクス定位ネットワーク
- Authors: Zhihuang Zhang, Meng Xu, Wenqiang Zhou, Tao Peng, Liang Li, Stefan
Poslad
- Abstract要約: マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。
BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。
実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
- 参考スコア(独自算出の注目度): 13.258689143949912
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate localization ability is fundamental in autonomous driving.
Traditional visual localization frameworks approach the semantic map-matching
problem with geometric models, which rely on complex parameter tuning and thus
hinder large-scale deployment. In this paper, we propose BEV-Locator: an
end-to-end visual semantic localization neural network using multi-view camera
images. Specifically, a visual BEV (Birds-Eye-View) encoder extracts and
flattens the multi-view images into BEV space. While the semantic map features
are structurally embedded as map queries sequence. Then a cross-model
transformer associates the BEV features and semantic map queries. The
localization information of ego-car is recursively queried out by
cross-attention modules. Finally, the ego pose can be inferred by decoding the
transformer outputs. We evaluate the proposed method in large-scale nuScenes
and Qcraft datasets. The experimental results show that the BEV-locator is
capable to estimate the vehicle poses under versatile scenarios, which
effectively associates the cross-model information from multi-view images and
global semantic maps. The experiments report satisfactory accuracy with mean
absolute errors of 0.052m, 0.135m and 0.251$^\circ$ in lateral, longitudinal
translation and heading angle degree.
- Abstract(参考訳): 正確なローカライゼーション能力は、自動運転の基本である。
従来の視覚的ローカライゼーションフレームワークは、複雑なパラメータチューニングに依存し、大規模なデプロイメントを妨げる幾何学モデルによる意味地図マッチング問題にアプローチする。
本稿では,多視点カメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークBEV-Locatorを提案する。
具体的には、視覚的BEVエンコーダ(Birds-Eye-View)が、多視点画像をBEV空間に抽出し、平坦化する。
セマンティックマップ機能はマップクエリシーケンスとして構造的に組み込まれている。
次に、クロスモデル変換器は、BEV機能とセマンティックマップクエリを関連付ける。
ego-carのローカライズ情報はクロスアテンションモジュールによって再帰的にクエリされる。
最後に、変換器出力を復号することで、エゴポーズを推測することができる。
提案手法を大規模nuSceneおよびQcraftデータセットで評価する。
実験の結果,bev-ロケータは多視点画像とグローバルセマンティックマップのクロスモデル情報を効果的に関連付ける汎用シナリオで車両のポーズを推定できることがわかった。
実験の結果, 平均絶対誤差が0.052m, 0.135m, 0.251$^\circ$で, 横方向, 縦方向, 方向角の精度は良好であった。
関連論文リスト
- U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based
Relocalization [86.63465798307728]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - EgoVM: Achieving Precise Ego-Localization using Lightweight Vectorized
Maps [9.450650025266379]
本稿では,従来の最先端手法に匹敵するローカライズ精度を実現するエンド・ツー・エンドのローカライズネットワークであるEgoVMを提案する。
我々は、学習可能なセマンティック埋め込みを用いて、マップ要素のセマンティックタイプを符号化し、セマンティックセマンティックセグメンテーションでそれらを監督する。
本研究では,頑健なヒストグラムに基づくポーズ解法を用いて,候補ポーズを徹底的に探索することで最適なポーズを推定する。
論文 参考訳(メタデータ) (2023-07-18T06:07:25Z) - LaRa: Latents and Rays for Multi-Camera Bird's-Eye-View Semantic
Segmentation [43.12994451281451]
複数のカメラからの車両セマンティックセグメンテーションのための効率的なエンコーダデコーダである'LaRa'を提案する。
我々のアプローチは、複数のセンサーにまたがる情報を、コンパクトでリッチな潜在表現の集合に集約するクロスアテンションシステムを用いています。
論文 参考訳(メタデータ) (2022-06-27T13:37:50Z) - ViT-BEVSeg: A Hierarchical Transformer Network for Monocular
Birds-Eye-View Segmentation [2.70519393940262]
本研究では,バードアイビュー (BEV) マップを生成するために,視覚変換器 (ViT) をバックボーンアーキテクチャとして用いることを評価する。
我々のネットワークアーキテクチャであるViT-BEVSegは、入力画像のマルチスケール表現を生成するために標準視覚変換器を使用している。
我々は、最先端のアプローチと比較してかなり改善されたnuScenesデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-05-31T10:18:36Z) - RIAV-MVS: Recurrent-Indexing an Asymmetric Volume for Multi-View Stereo [22.32720993997916]
「学習から最適化」パラダイムは、平面スウィーピングコストボリュームを反復的にインデックス化し、畳み込みGated Recurrent Unit(GRU)を介して深度マップを回帰する。
実世界のMVSデータセットに関する広範な実験を行い,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-05-28T03:32:56Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。