Fugu-MT 論文翻訳(概要): Addressing Diverging Training Costs using Local Restoration for Precise Bird's Eye View Map Construction

論文の概要: Addressing Diverging Training Costs using Local Restoration for Precise Bird's Eye View Map Construction

arxiv url: http://arxiv.org/abs/2405.01016v2
Date: Mon, 3 Jun 2024 17:36:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 14:58:30.783666
Title: Addressing Diverging Training Costs using Local Restoration for Precise Bird's Eye View Map Construction
Title（参考訳）: 精密視線マップ構築のための局所的修復による分岐訓練コストの対応
Authors: Minsu Kim, Giseop Kim, Sunwook Choi,
Abstract要約: 本稿では,新しいTrumpet Neural Network(TNN)機構について紹介する。 TNNは、プラグアンドプレイのメモリ効率のパイプラインを提供しており、実際のサイズの(あるいは正確な)セマンティックラベルを効果的に推定することができる。実験の結果,TNN機構は,実サイズ(あるいは正確な)セマンティックラベルを効果的に推定できる,プラグアンドプレイのメモリ効率の高いパイプラインを提供することがわかった。
参考スコア（独自算出の注目度）: 24.897271474499767
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent advancements in Bird's Eye View (BEV) fusion for map construction have demonstrated remarkable mapping of urban environments. However, their deep and bulky architecture incurs substantial amounts of backpropagation memory and computing latency. Consequently, the problem poses an unavoidable bottleneck in constructing high-resolution (HR) BEV maps, as their large-sized features cause significant increases in costs including GPU memory consumption and computing latency, named diverging training costs issue. Affected by the problem, most existing methods adopt low-resolution (LR) BEV and struggle to estimate the precise locations of urban scene components like road lanes, and sidewalks. As the imprecision leads to risky self-driving, the diverging training costs issue has to be resolved. In this paper, we address the issue with our novel Trumpet Neural Network (TNN) mechanism. The framework utilizes LR BEV space and outputs an up-sampled semantic BEV map to create a memory-efficient pipeline. To this end, we introduce Local Restoration of BEV representation. Specifically, the up-sampled BEV representation has severely aliased, blocky signals, and thick semantic labels. Our proposed Local Restoration restores the signals and thins (or narrows down) the width of the labels. Our extensive experiments show that the TNN mechanism provides a plug-and-play memory-efficient pipeline, thereby enabling the effective estimation of real-sized (or precise) semantic labels for BEV map construction.
Abstract（参考訳）: 地図構築のためのBird's Eye View(BEV)融合の最近の進歩は、都市環境の顕著なマッピングを示している。しかし、その深くて粗いアーキテクチャは、かなりの量のバックプロパゲーションメモリとコンピューティングのレイテンシを引き起こす。結果として、この問題は高解像度(HR)のBEVマップの構築において必然的にボトルネックとなる。この問題の影響で、既存のほとんどの手法は低解像度のBEVを採用し、道路車線や歩道などの都市景観の正確な位置を推定するのに苦労している。インプレクシションがリスクの高い自動運転につながるため、多様化するトレーニングコストの問題は解決されなければならない。本稿では,新しいTrumpet Neural Network(TNN)機構でこの問題に対処する。このフレームワークはLR BEV空間を利用し、メモリ効率のよいパイプラインを作成するために、アップサンプルのセマンティックBEVマップを出力する。そこで本稿では,BEV表現の局所的復元について紹介する。具体的には、アップサンプリングされたBEV表現は、深刻なエイリアス、ブロッキー信号、そして厚いセマンティックラベルを持っている。提案したローカル復元は,信号の復元とラベルの幅の縮小(あるいは縮小)を行う。我々の広範な実験により、TNN機構は、プラグアンドプレイのメモリ効率の高いパイプラインを提供し、BEVマップ構築のための実サイズ(または正確な)セマンティックラベルを効果的に推定できることが示されている。

関連論文リスト

ChatBEV: A Visual Language Model that Understands BEV Maps [58.3005092762598]
我々は137k以上の質問を含む新しいBEV VQAベンチマークであるChatBEV-QAを紹介する。このベンチマークは、BEVマップ用のスケーラブルで情報性の高いVQAデータを生成する、新しいデータ収集パイプラインを使用して構築されている。本稿では,ChatBEVが地図理解とテキスト対応ナビゲーションを支援する言語駆動の交通シーン生成パイプラインを提案する。
論文参考訳（メタデータ） (2025-03-18T06:12:38Z)
TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文参考訳（メタデータ） (2024-11-22T06:13:42Z)
LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文参考訳（メタデータ） (2024-11-09T13:03:54Z)
VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文参考訳（メタデータ） (2024-11-03T16:09:47Z)
BLOS-BEV: Navigation Map Enhanced Lane Segmentation Network, Beyond Line of Sight [30.45553559416835]
我々は,視線を超越した正確な知覚のためにSDマップを組み込んだ新しいBEVセグメンテーションモデルBLOS-BEVを提案する。我々のアプローチは一般的なBEVアーキテクチャに適用でき、SDマップから得られる情報を組み込むことで優れた結果を得ることができる。
論文参考訳（メタデータ） (2024-07-11T14:15:48Z)
Improving Bird's Eye View Semantic Segmentation by Task Decomposition [42.57351039508863]
元のBEVセグメンテーションタスクを,BEVマップ再構成とRGB-BEV機能アライメントという2つの段階に分割する。我々のアプローチは、知覚と生成を異なるステップに組み合わせることの複雑さを単純化し、複雑で挑戦的なシーンを効果的に扱うためのモデルを構築します。
論文参考訳（メタデータ） (2024-04-02T13:19:45Z)
U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。 Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文参考訳（メタデータ） (2023-10-20T18:57:38Z)
BroadBEV: Collaborative LiDAR-camera Fusion for Broad-sighted Bird's Eye View Map Construction [31.664613321775516]
そこで本稿では,空間的同期手法を用いて,BroadBEV(BroadBEV)とBroadBEV(BroadBEV)の融合を提案する。我々の戦略は、広視野認識のためのカメラBEV推定を強化し、同時に、全BEV空間におけるLiDARの空き度を向上することである。
論文参考訳（メタデータ） (2023-09-20T07:55:57Z)
BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。 BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-26T11:16:12Z)
Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文参考訳（メタデータ） (2022-11-15T13:52:41Z)
Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。 BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文参考訳（メタデータ） (2022-09-12T15:29:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。