Fugu-MT 論文翻訳(概要): BEV-Locator: An End-to-end Visual Semantic Localization Network Using Multi-View Images

論文の概要: BEV-Locator: An End-to-end Visual Semantic Localization Network Using Multi-View Images

arxiv url: http://arxiv.org/abs/2211.14927v1
Date: Sun, 27 Nov 2022 20:24:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-29 15:28:22.618623
Title: BEV-Locator: An End-to-end Visual Semantic Localization Network Using Multi-View Images
Title（参考訳）: bev-locator:マルチビュー画像を用いたエンド・ツー・エンドのビジュアルセマンティクス定位ネットワーク
Authors: Zhihuang Zhang, Meng Xu, Wenqiang Zhou, Tao Peng, Liang Li, Stefan Poslad
Abstract要約: マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。 BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
参考スコア（独自算出の注目度）: 13.258689143949912
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Accurate localization ability is fundamental in autonomous driving. Traditional visual localization frameworks approach the semantic map-matching problem with geometric models, which rely on complex parameter tuning and thus hinder large-scale deployment. In this paper, we propose BEV-Locator: an end-to-end visual semantic localization neural network using multi-view camera images. Specifically, a visual BEV (Birds-Eye-View) encoder extracts and flattens the multi-view images into BEV space. While the semantic map features are structurally embedded as map queries sequence. Then a cross-model transformer associates the BEV features and semantic map queries. The localization information of ego-car is recursively queried out by cross-attention modules. Finally, the ego pose can be inferred by decoding the transformer outputs. We evaluate the proposed method in large-scale nuScenes and Qcraft datasets. The experimental results show that the BEV-locator is capable to estimate the vehicle poses under versatile scenarios, which effectively associates the cross-model information from multi-view images and global semantic maps. The experiments report satisfactory accuracy with mean absolute errors of 0.052m, 0.135m and 0.251$^\circ$ in lateral, longitudinal translation and heading angle degree.
Abstract（参考訳）: 正確なローカライゼーション能力は、自動運転の基本である。従来の視覚的ローカライゼーションフレームワークは、複雑なパラメータチューニングに依存し、大規模なデプロイメントを妨げる幾何学モデルによる意味地図マッチング問題にアプローチする。本稿では,多視点カメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークBEV-Locatorを提案する。具体的には、視覚的BEVエンコーダ(Birds-Eye-View)が、多視点画像をBEV空間に抽出し、平坦化する。セマンティックマップ機能はマップクエリシーケンスとして構造的に組み込まれている。次に、クロスモデル変換器は、BEV機能とセマンティックマップクエリを関連付ける。 ego-carのローカライズ情報はクロスアテンションモジュールによって再帰的にクエリされる。最後に、変換器出力を復号することで、エゴポーズを推測することができる。提案手法を大規模nuSceneおよびQcraftデータセットで評価する。実験の結果,bev-ロケータは多視点画像とグローバルセマンティックマップのクロスモデル情報を効果的に関連付ける汎用シナリオで車両のポーズを推定できることがわかった。実験の結果, 平均絶対誤差が0.052m, 0.135m, 0.251$^\circ$で, 横方向, 縦方向, 方向角の精度は良好であった。

関連論文リスト

OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Geometric and Semantic Guidances [11.085165252259042]
OSMLocは、脳にインスパイアされた単一画像の視覚的位置決め手法であり、精度、堅牢性、一般化能力を改善するための意味的および幾何学的ガイダンスを備えている。提案したOSMLOCを検証するため,世界規模のクロスエリアとクロスコンディション(CC)のベンチマークを収集し,広範な評価を行う。
論文参考訳（メタデータ） (2024-11-13T14:59:00Z)
VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文参考訳（メタデータ） (2024-11-03T16:09:47Z)
Progressive Query Refinement Framework for Bird's-Eye-View Semantic Segmentation from Surrounding Images [3.495246564946556]
本稿では, 自律運転のためのバードズ・アイビュー(BEV)セマンティックセマンティックセグメンテーションにMR(Multi-Resolution)の概念を導入する。本稿では,画像間と特徴レベル間の相互作用を促進する視覚的特徴相互作用ネットワークを提案する。大規模な実世界のデータセットを用いて、我々のモデルを評価する。
論文参考訳（メタデータ） (2024-07-24T05:00:31Z)
Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。 VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文参考訳（メタデータ） (2024-06-23T20:00:20Z)
EgoVM: Achieving Precise Ego-Localization using Lightweight Vectorized Maps [9.450650025266379]
本稿では,従来の最先端手法に匹敵するローカライズ精度を実現するエンド・ツー・エンドのローカライズネットワークであるEgoVMを提案する。我々は、学習可能なセマンティック埋め込みを用いて、マップ要素のセマンティックタイプを符号化し、セマンティックセマンティックセグメンテーションでそれらを監督する。本研究では,頑健なヒストグラムに基づくポーズ解法を用いて,候補ポーズを徹底的に探索することで最適なポーズを推定する。
論文参考訳（メタデータ） (2023-07-18T06:07:25Z)
LaRa: Latents and Rays for Multi-Camera Bird's-Eye-View Semantic Segmentation [43.12994451281451]
複数のカメラからの車両セマンティックセグメンテーションのための効率的なエンコーダデコーダである'LaRa'を提案する。我々のアプローチは、複数のセンサーにまたがる情報を、コンパクトでリッチな潜在表現の集合に集約するクロスアテンションシステムを用いています。
論文参考訳（メタデータ） (2022-06-27T13:37:50Z)
ViT-BEVSeg: A Hierarchical Transformer Network for Monocular Birds-Eye-View Segmentation [2.70519393940262]
本研究では,バードアイビュー (BEV) マップを生成するために,視覚変換器 (ViT) をバックボーンアーキテクチャとして用いることを評価する。我々のネットワークアーキテクチャであるViT-BEVSegは、入力画像のマルチスケール表現を生成するために標準視覚変換器を使用している。我々は、最先端のアプローチと比較してかなり改善されたnuScenesデータセットに対するアプローチを評価した。
論文参考訳（メタデータ） (2022-05-31T10:18:36Z)
GitNet: Geometric Prior-based Transformation for Birds-Eye-View Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-16T06:46:45Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文参考訳（メタデータ） (2021-09-15T01:10:30Z)
Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文参考訳（メタデータ） (2021-08-06T17:59:11Z)
ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文参考訳（メタデータ） (2021-06-07T05:31:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。