論文の概要: PowerBEV: A Powerful Yet Lightweight Framework for Instance Prediction
in Bird's-Eye View
- arxiv url: http://arxiv.org/abs/2306.10761v1
- Date: Mon, 19 Jun 2023 08:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 18:47:47.957386
- Title: PowerBEV: A Powerful Yet Lightweight Framework for Instance Prediction
in Bird's-Eye View
- Title(参考訳): PowerBEV - 鳥の視点で見出すための強力で軽量なフレームワーク
- Authors: Peizheng Li, Shuxiao Ding, Xieyuanli Chen, Niklas Hanselmann, Marius
Cordts and Juergen Gall
- Abstract要約: 鳥眼ビュー(Bird's-eye view, BEV)は、自律運転の認識において一般的な場所である。
BEVインスタンス予測の既存のアプローチは、将来のインスタンスを予測するために、後処理と組み合わせたマルチタスクの自動回帰に依存している。
提案手法は, 従来の手法の冗長性を低減すべく, 設計選択の異なる, POWERBEV という, 効率的なエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.113805629254191
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurately perceiving instances and predicting their future motion are key
tasks for autonomous vehicles, enabling them to navigate safely in complex
urban traffic. While bird's-eye view (BEV) representations are commonplace in
perception for autonomous driving, their potential in a motion prediction
setting is less explored. Existing approaches for BEV instance prediction from
surround cameras rely on a multi-task auto-regressive setup coupled with
complex post-processing to predict future instances in a spatio-temporally
consistent manner. In this paper, we depart from this paradigm and propose an
efficient novel end-to-end framework named POWERBEV, which differs in several
design choices aimed at reducing the inherent redundancy in previous methods.
First, rather than predicting the future in an auto-regressive fashion,
POWERBEV uses a parallel, multi-scale module built from lightweight 2D
convolutional networks. Second, we show that segmentation and centripetal
backward flow are sufficient for prediction, simplifying previous multi-task
objectives by eliminating redundant output modalities. Building on this output
representation, we propose a simple, flow warping-based post-processing
approach which produces more stable instance associations across time. Through
this lightweight yet powerful design, POWERBEV outperforms state-of-the-art
baselines on the NuScenes Dataset and poses an alternative paradigm for BEV
instance prediction. We made our code publicly available at:
https://github.com/EdwardLeeLPZ/PowerBEV.
- Abstract(参考訳): インスタンスを正確に認識し、将来の動きを予測することは、自動運転車にとって重要なタスクであり、複雑な都市交通の中で安全に移動することができる。
鳥眼ビュー(BEV)の表現は自律運転の認識において一般的であるが、運動予測設定におけるそのポテンシャルは調査されていない。
サラウンドカメラからの既存のBEVインスタンス予測のアプローチは、時空間的に一貫した方法で将来のインスタンスを予測するために、複雑な後処理と組み合わせたマルチタスク自動回帰セットアップに依存している。
本稿では,本パラダイムから脱却し,従来の手法に固有の冗長性を低減することを目的とした,POWERBEVという,効率的なエンドツーエンドフレームワークを提案する。
まず、POWERBEVは自動回帰方式で未来を予測するのではなく、軽量な2D畳み込みネットワークから構築された並列なマルチスケールモジュールを使用する。
第二に、セグメント化と遠心逆流は予測に十分であり、冗長な出力モダリティを排除し、従来のマルチタスクの目的を単純化する。
この出力表現に基づいて、時間を通してより安定したインスタンスアソシエーションを生成する単純なフローワープに基づく後処理手法を提案する。
この軽量で強力な設計を通じて、POWERBEVはNuScenes Datasetの最先端のベースラインを上回り、BEVインスタンス予測の代替パラダイムを提供する。
コードはhttps://github.com/EdwardLeeLPZ/PowerBEV.comで公開しました。
関連論文リスト
- Hierarchical and Decoupled BEV Perception Learning Framework for Autonomous Driving [52.808273563372126]
本稿では,新しい階層型バードアイビュー(BEV)知覚パラダイムを提案する。
基本的な知覚モジュールとユーザフレンドリなグラフィカルインターフェースのライブラリを提供することを目指している。
我々は,大規模公開データセットと合理化開発プロセスを効果的に活用するために,Pretrain-Finetune戦略を実行している。
論文 参考訳(メタデータ) (2024-07-17T11:17:20Z) - BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space [57.68134574076005]
BEVWorldは,マルチモーダルセンサの入力を,環境モデリングのための統一的でコンパクトなBird's Eye View潜在空間にトークン化する手法である。
実験は、自律走行タスクにおけるBEVWorldの有効性を示し、将来のシーンを生成する能力を示し、知覚や動き予測のような下流タスクに恩恵を与える。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - FipTR: A Simple yet Effective Transformer Framework for Future Instance Prediction in Autonomous Driving [8.370230253558159]
Bird's Eye View(BEV)の観点からの将来のインスタンス予測は、自動運転において不可欠な要素である。
本稿では,Future Instance Prediction Transformer(FipTR)という,シンプルで効果的なエンドツーエンドフレームワークを提案する。
本稿では,Future Instance Prediction Transformer(FipTR)という,シンプルで効果的なエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-19T13:08:43Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based
Relocalization [86.63465798307728]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - Multimodal Motion Prediction with Stacked Transformers [35.9674180611893]
我々はmmTransformerと呼ばれるマルチモーダル動作予測のための新しいトランスフォーマーフレームワークを提案する。
スタックドトランスフォーマーに基づく新しいネットワークアーキテクチャは、固定された独立した提案のセットで機能レベルでマルチモダリティをモデル化するように設計されている。
次に、生成した提案のマルチモーダリティを誘導するために、地域ベースのトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2021-03-22T07:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。