論文の概要: TempBEV: Improving Learned BEV Encoders with Combined Image and BEV Space Temporal Aggregation
- arxiv url: http://arxiv.org/abs/2404.11803v1
- Date: Wed, 17 Apr 2024 23:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 19:50:54.533750
- Title: TempBEV: Improving Learned BEV Encoders with Combined Image and BEV Space Temporal Aggregation
- Title(参考訳): TempBEV: 画像とBEV空間の時間アグリゲーションを組み合わせた学習型BEVエンコーダの改良
- Authors: Thomas Monninger, Vandana Dokkadi, Md Zafar Anwar, Steffen Staab,
- Abstract要約: 我々は,両潜伏空間から収集した時間情報を統合した新しい時間的BEVエンコーダであるTempBEVを開発した。
NuScenesデータセットの実験的評価は、3Dオブジェクト検出とBEVセグメンテーションのベースラインに対するTempBEVによる大幅な改善を示している。
- 参考スコア(独自算出の注目度): 9.723276622743473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving requires an accurate representation of the environment. A strategy toward high accuracy is to fuse data from several sensors. Learned Bird's-Eye View (BEV) encoders can achieve this by mapping data from individual sensors into one joint latent space. For cost-efficient camera-only systems, this provides an effective mechanism to fuse data from multiple cameras with different views. Accuracy can further be improved by aggregating sensor information over time. This is especially important in monocular camera systems to account for the lack of explicit depth and velocity measurements. Thereby, the effectiveness of developed BEV encoders crucially depends on the operators used to aggregate temporal information and on the used latent representation spaces. We analyze BEV encoders proposed in the literature and compare their effectiveness, quantifying the effects of aggregation operators and latent representations. While most existing approaches aggregate temporal information either in image or in BEV latent space, our analyses and performance comparisons suggest that these latent representations exhibit complementary strengths. Therefore, we develop a novel temporal BEV encoder, TempBEV, which integrates aggregated temporal information from both latent spaces. We consider subsequent image frames as stereo through time and leverage methods from optical flow estimation for temporal stereo encoding. Empirical evaluation on the NuScenes dataset shows a significant improvement by TempBEV over the baseline for 3D object detection and BEV segmentation. The ablation uncovers a strong synergy of joint temporal aggregation in the image and BEV latent space. These results indicate the overall effectiveness of our approach and make a strong case for aggregating temporal information in both image and BEV latent spaces.
- Abstract(参考訳): 自律運転は環境の正確な表現を必要とする。
高精度への戦略は、複数のセンサーからデータを融合させることである。
Learned Bird's-Eye View (BEV)エンコーダは、個々のセンサーからデータを1つのジョイント潜在空間にマッピングすることで、これを実現することができる。
コスト効率のよいカメラ専用システムでは、異なるビューで複数のカメラからデータを融合する効果的なメカニズムを提供する。
センサ情報を時間とともに集約することで、さらに精度を向上させることができる。
これは、露光深度と速度測定の欠如を考慮し、単眼カメラシステムにおいて特に重要である。
これにより、開発したBEVエンコーダの有効性は、時間情報を集約する演算子と、使用する潜在表現空間に大きく依存する。
文献で提案したBEVエンコーダを解析し,その有効性を比較し,集約演算子と潜在表現の効果を定量化する。
既存のほとんどのアプローチは、画像またはBEV潜時空間において時間情報を集約するが、分析と性能比較の結果、これらの潜時表現は相補的な強みを示すことが示唆された。
そこで我々は,両潜伏空間から収集した時間情報を統合した新しい時間的BEVエンコーダであるTempBEVを開発した。
後続の画像フレームを時間的ステレオとみなし、時間的ステレオ符号化のための光フロー推定法を利用する。
NuScenesデータセットの実験的評価は、3Dオブジェクト検出とBEVセグメンテーションのベースラインに対するTempBEVによる大幅な改善を示している。
アブレーションにより、画像とBEV潜伏空間における関節側頭葉凝集の強い相乗効果が明らかになる。
これらの結果は,提案手法の全体的効果を示し,画像およびBEV潜伏空間の時間的情報収集に強く寄与する。
関連論文リスト
- BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment [8.098296280937518]
本稿では,カメラとライダーデータからBEV表現を統合するフレームワークであるBEVPoseについて,センサポーズを誘導監視信号として用いた。
ポーズ情報を活用することで,環境の幾何学的側面と意味的側面の両方を捉えた潜在的BEV埋め込みの学習を容易にし,マルチモーダルな感覚入力を調整・融合する。
論文 参考訳(メタデータ) (2024-10-28T12:40:27Z) - OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - BroadBEV: Collaborative LiDAR-camera Fusion for Broad-sighted Bird's Eye
View Map Construction [31.664613321775516]
そこで本稿では,空間的同期手法を用いて,BroadBEV(BroadBEV)とBroadBEV(BroadBEV)の融合を提案する。
我々の戦略は、広視野認識のためのカメラBEV推定を強化し、同時に、全BEV空間におけるLiDARの空き度を向上することである。
論文 参考訳(メタデータ) (2023-09-20T07:55:57Z) - Leveraging BEV Representation for 360-degree Visual Place Recognition [14.497501941931759]
本稿では,360度視覚位置認識(VPR)におけるBird's Eye View表現の利点について検討する。
本稿では,特徴抽出,特徴集約,視覚-LiDAR融合におけるBEV表現を利用した新しいネットワークアーキテクチャを提案する。
提案手法は,2つのデータセットのアブレーションおよび比較研究において評価される。
論文 参考訳(メタデータ) (2023-05-23T08:29:42Z) - Temporal Enhanced Training of Multi-view 3D Object Detector via
Historical Object Prediction [28.800204844558518]
マルチビュー3次元検出のための新しいパラダイムである履歴オブジェクト予測(HoP)を提案する。
我々は隣接するフレームからタイムスタンプt-kの擬似Bird's-Eye View(BEV)機能を生成し、この特徴を利用してタイムスタンプt-kに設定されたオブジェクトを予測する。
プラグアンドプレイのアプローチとして、HoPは最先端のBEV検出フレームワークに簡単に組み込むことができる。
論文 参考訳(メタデータ) (2023-04-03T13:35:29Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera
Images via Spatiotemporal Transformers [39.253627257740085]
マルチカメラ画像に基づく3次元検出やマップセグメンテーションを含む3次元視覚認識タスクは、自律運転システムに不可欠である。
本稿では,複数の自律運転認識タスクをサポートするために,変圧器を用いた統合BEV表現を学習するBEVFormerという新しいフレームワークを提案する。
BEVFormerは低視認性条件下での物体の速度推定とリコールの精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2022-03-31T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。