論文の概要: LaRa: Latents and Rays for Multi-Camera Bird's-Eye-View Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2206.13294v1
- Date: Mon, 27 Jun 2022 13:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 13:59:31.238628
- Title: LaRa: Latents and Rays for Multi-Camera Bird's-Eye-View Semantic
Segmentation
- Title(参考訳): LaRa:マルチカメラバードのEye-Viewセマンティックセマンティックセグメンテーションのための潜像と光
- Authors: Florent Bartoccioni, \'Eloi Zablocki, Andrei Bursuc, Patrick P\'erez,
Matthieu Cord, Karteek Alahari
- Abstract要約: 複数のカメラからの車両セマンティックセグメンテーションのための効率的なエンコーダデコーダである'LaRa'を提案する。
我々のアプローチは、複数のセンサーにまたがる情報を、コンパクトでリッチな潜在表現の集合に集約するクロスアテンションシステムを用いています。
- 参考スコア(独自算出の注目度): 43.12994451281451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works in autonomous driving have widely adopted the bird's-eye-view
(BEV) semantic map as an intermediate representation of the world. Online
prediction of these BEV maps involves non-trivial operations such as
multi-camera data extraction as well as fusion and projection into a common
top-view grid. This is usually done with error-prone geometric operations
(e.g., homography or back-projection from monocular depth estimation) or
expensive direct dense mapping between image pixels and pixels in BEV (e.g.,
with MLP or attention). In this work, we present 'LaRa', an efficient
encoder-decoder, transformer-based model for vehicle semantic segmentation from
multiple cameras. Our approach uses a system of cross-attention to aggregate
information over multiple sensors into a compact, yet rich, collection of
latent representations. These latent representations, after being processed by
a series of self-attention blocks, are then reprojected with a second
cross-attention in the BEV space. We demonstrate that our model outperforms on
nuScenes the best previous works using transformers.
- Abstract(参考訳): 自律運転における最近の研究は、世界の中間表現として、鳥の目視(BEV)セマンティックマップを広く採用している。
これらのBEVマップのオンライン予測には、マルチカメラデータ抽出のような非自明な操作や、一般的なトップビューグリッドへの融合と投影が含まれる。
これは通常、誤差に富む幾何学演算(例えば、単眼深度推定によるホモグラフィやバックプロジェクション)や、bev内の画像画素と画素の間の高価な直接密マッピング(例えば、mlpや注意)によって行われる。
本研究では,複数のカメラから車両のセマンティクスセグメンテーションを行うための,効率的なエンコーダデコーダ・トランスフォーマモデルである'lara'を提案する。
我々のアプローチは、複数のセンサーにまたがる情報を、コンパクトでリッチな潜在表現の集合に集約するクロスアテンションシステムを使用する。
これらの潜在表現は一連の自己アテンションブロックによって処理された後、bev空間で第2のクロスアテンションで再投影される。
我々のモデルは、トランスフォーマーを用いた最善の先行作品よりも優れていることを実証する。
関連論文リスト
- Multi-camera Bird's Eye View Perception for Autonomous Driving [17.834495597639805]
他のエージェントや構造の空間的推論を可能にするためには、3Dで知覚出力を生成することが不可欠である。
カメラ画像から所望のBEV表現を達成するための最も基本的なアプローチは、平らな地面を仮定してIPMである。
近年のアプローチでは、ディープニューラルネットワークを使用してBEV空間を直接出力している。
論文 参考訳(メタデータ) (2023-09-16T19:12:05Z) - BEV-Locator: An End-to-end Visual Semantic Localization Network Using
Multi-View Images [13.258689143949912]
マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。
BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。
実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
論文 参考訳(メタデータ) (2022-11-27T20:24:56Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - ViT-BEVSeg: A Hierarchical Transformer Network for Monocular
Birds-Eye-View Segmentation [2.70519393940262]
本研究では,バードアイビュー (BEV) マップを生成するために,視覚変換器 (ViT) をバックボーンアーキテクチャとして用いることを評価する。
我々のネットワークアーキテクチャであるViT-BEVSegは、入力画像のマルチスケール表現を生成するために標準視覚変換器を使用している。
我々は、最先端のアプローチと比較してかなり改善されたnuScenesデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-05-31T10:18:36Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary
Camera Rigs [3.5728676902207988]
任意のカメラリグからのBEVセマンティックセマンティックセグメンテーションのための効果的なトランスフォーマーベース手法を提案する。
具体的には、まず任意のカメラから画像の特徴を共有バックボーンで符号化する。
BEV-to-imageビュー変換を行うために、効率的なマルチカメラ変形型アテンションユニットを設計する。
論文 参考訳(メタデータ) (2022-03-08T12:39:51Z) - Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文 参考訳(メタデータ) (2020-08-13T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。