論文の概要: Addressing Diverging Training Costs using BEVRestore for High-resolution Bird's Eye View Map Construction
- arxiv url: http://arxiv.org/abs/2405.01016v4
- Date: Thu, 22 Aug 2024 06:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 19:15:36.404021
- Title: Addressing Diverging Training Costs using BEVRestore for High-resolution Bird's Eye View Map Construction
- Title(参考訳): 高分解能バードアイビューマップ構築のためのBEVレストアを用いた分岐訓練コストの対応
- Authors: Minsu Kim, Giseop Kim, Sunwook Choi,
- Abstract要約: Bird's Eye View (BEV) 融合の大規模機能は、GPUメモリ消費やコンピューティングレイテンシなどのコストを大幅に上昇させる。
本稿では,BEVの高スケール機能におけるエイリアス化とブロッキーなアーティファクトを復元し,ラベルの幅を狭めるBEV復元戦略を紹介する。
実験の結果,提案機構はプラグアンドプレイ型,メモリ効率のよいパイプラインを提供し,広いBEV範囲のHRマップ構築を可能にした。
- 参考スコア(独自算出の注目度): 24.897271474499767
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in Bird's Eye View (BEV) fusion for map construction have demonstrated remarkable mapping of urban environments. However, their deep and bulky architecture incurs substantial amounts of backpropagation memory and computing latency. Consequently, the problem poses an unavoidable bottleneck in constructing high-resolution (HR) BEV maps, as their large-sized features cause significant increases in costs including GPU memory consumption and computing latency, named diverging training costs issue. Affected by the problem, most existing methods adopt low-resolution (LR) BEV and struggle to estimate the precise locations of urban scene components like road lanes, and sidewalks. As the imprecision leads to risky motion planning like collision avoidance, the diverging training costs issue has to be resolved. In this paper, we address the issue with our novel BEVRestore mechanism. Specifically, our proposed model encodes the features of each sensor to LR BEV space and restores them to HR space to establish a memory-efficient map constructor. To this end, we introduce the BEV restoration strategy, which restores aliasing, and blocky artifacts of the up-scaled BEV features, and narrows down the width of the labels. Our extensive experiments show that the proposed mechanism provides a plug-and-play, memory-efficient pipeline, enabling an HR map construction with a broad BEV scope.
- Abstract(参考訳): 地図構築のためのBird's Eye View(BEV)融合の最近の進歩は、都市環境の顕著なマッピングを示している。
しかし、その深くて粗いアーキテクチャは、かなりの量のバックプロパゲーションメモリとコンピューティングのレイテンシを引き起こす。
結果として、この問題は高解像度(HR)のBEVマップの構築において必然的にボトルネックとなる。
この問題の影響で、既存のほとんどの手法は低解像度のBEVを採用し、道路車線や歩道などの都市景観の正確な位置を推定するのに苦労している。
衝突回避のような危険な動き計画につながるため、異なるトレーニングコストの問題が解決される必要がある。
本稿では,新しいBEVRestore機構でこの問題に対処する。
具体的には、各センサの特徴をLR BEV空間にエンコードし、HR空間に復元し、メモリ効率の良いマップコンストラクタを構築する。
この目的のために,BEVの修復戦略を導入し,AliasingとBEV機能のブロックされたアーティファクトを復元し,ラベルの幅を狭める。
広範にわたる実験により,提案機構はプラグイン・アンド・プレイ・メモリ効率の高いパイプラインを提供し,広いBEV範囲のHRマップ構築を可能にした。
関連論文リスト
- TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。
提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。
提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文 参考訳(メタデータ) (2024-11-09T13:03:54Z) - VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - BLOS-BEV: Navigation Map Enhanced Lane Segmentation Network, Beyond Line of Sight [30.45553559416835]
我々は,視線を超越した正確な知覚のためにSDマップを組み込んだ新しいBEVセグメンテーションモデルBLOS-BEVを提案する。
我々のアプローチは一般的なBEVアーキテクチャに適用でき、SDマップから得られる情報を組み込むことで優れた結果を得ることができる。
論文 参考訳(メタデータ) (2024-07-11T14:15:48Z) - Improving Bird's Eye View Semantic Segmentation by Task Decomposition [42.57351039508863]
元のBEVセグメンテーションタスクを,BEVマップ再構成とRGB-BEV機能アライメントという2つの段階に分割する。
我々のアプローチは、知覚と生成を異なるステップに組み合わせることの複雑さを単純化し、複雑で挑戦的なシーンを効果的に扱うためのモデルを構築します。
論文 参考訳(メタデータ) (2024-04-02T13:19:45Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - BroadBEV: Collaborative LiDAR-camera Fusion for Broad-sighted Bird's Eye
View Map Construction [31.664613321775516]
そこで本稿では,空間的同期手法を用いて,BroadBEV(BroadBEV)とBroadBEV(BroadBEV)の融合を提案する。
我々の戦略は、広視野認識のためのカメラBEV推定を強化し、同時に、全BEV空間におけるLiDARの空き度を向上することである。
論文 参考訳(メタデータ) (2023-09-20T07:55:57Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。