論文の概要: CASPFormer: Trajectory Prediction from BEV Images with Deformable
Attention
- arxiv url: http://arxiv.org/abs/2409.17790v1
- Date: Thu, 26 Sep 2024 12:37:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 19:42:02.059697
- Title: CASPFormer: Trajectory Prediction from BEV Images with Deformable
Attention
- Title(参考訳): CASPFormer: 変形可能なBEV画像からの軌道予測
注意
- Authors: Harsh Yadav, Maximilian Schaefer, Kun Zhao, and Tobias Meisen
- Abstract要約: 本研究では,空間化されたBird-Eye-View(BEV)画像からマルチモーダルな動作予測を行うことができるコンテキスト認識シーン予測変換器(CASPFormer)を提案する。
我々のシステムは、BEV画像を生成することができる上流認識モジュールと統合することができる。
我々は、nuScenesデータセット上でモデルを評価し、複数のメトリクスにまたがって最先端に到達していることを示す。
- 参考スコア(独自算出の注目度): 4.9349065371630045
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Motion prediction is an important aspect for Autonomous Driving (AD) and
Advance Driver Assistance Systems (ADAS). Current state-of-the-art motion
prediction methods rely on High Definition (HD) maps for capturing the
surrounding context of the ego vehicle. Such systems lack scalability in
real-world deployment as HD maps are expensive to produce and update in
real-time. To overcome this issue, we propose Context Aware Scene Prediction
Transformer (CASPFormer), which can perform multi-modal motion prediction from
rasterized Bird-Eye-View (BEV) images. Our system can be integrated with any
upstream perception module that is capable of generating BEV images. Moreover,
CASPFormer directly decodes vectorized trajectories without any postprocessing.
Trajectories are decoded recurrently using deformable attention, as it is
computationally efficient and provides the network with the ability to focus
its attention on the important spatial locations of the BEV images. In
addition, we also address the issue of mode collapse for generating multiple
scene-consistent trajectories by incorporating learnable mode queries. We
evaluate our model on the nuScenes dataset and show that it reaches
state-of-the-art across multiple metrics
- Abstract(参考訳): 運動予測は、自律運転(AD)と前進運転支援システム(ADAS)にとって重要な側面である。
現在の最先端の動作予測手法は、エゴ車両の周囲の状況を把握するために高定義(HD)マップに依存している。
HDマップは、リアルタイムに作成および更新するのに費用がかかるため、そのようなシステムは現実世界のデプロイメントにおいてスケーラビリティを欠いている。
この問題を解決するために,ラスタライズされたバードアイビュー(BEV)画像からマルチモーダル動作予測を行うContext Aware Scene Prediction Transformer (CASPFormer)を提案する。
我々のシステムは、BEV画像を生成することができる上流認識モジュールと統合することができる。
さらに、CASPFormerは、後処理なしで直接ベクトル化されたトラジェクトリをデコードする。
トラジェクトリは、計算効率が良く、BEV画像の重要な空間的位置に集中できるネットワークを提供するため、変形可能な注意を用いて繰り返し復号される。
さらに、学習可能なモードクエリを組み込んだ複数のシーン一貫性トラジェクトリを生成するためのモード崩壊の問題にも対処する。
我々は、nuScenesデータセット上でモデルを評価し、複数のメトリクスにまたがって最先端に到達していることを示す。
関連論文リスト
- BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space [57.68134574076005]
BEVWorldは,マルチモーダルセンサの入力を,環境モデリングのための統一的でコンパクトなBird's Eye View潜在空間にトークン化する手法である。
実験は、自律走行タスクにおけるBEVWorldの有効性を示し、将来のシーンを生成する能力を示し、知覚や動き予測のような下流タスクに恩恵を与える。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - Optimizing Ego Vehicle Trajectory Prediction: The Graph Enhancement
Approach [1.3931837019950217]
我々は,空間的関係や物体の均一性を捉える上で,独特なアドバンテージを提供するBird's Eye Viewの視点の利用を提唱する。
我々の研究では、グラフニューラルネットワーク(GNN)と位置符号化を利用して、BEV内のオブジェクトを表現する。
論文 参考訳(メタデータ) (2023-12-20T15:22:34Z) - Context-Aware Timewise VAEs for Real-Time Vehicle Trajectory Prediction [4.640835690336652]
マルチモーダル車軌道予測のためのコンテキスト認識手法であるContextVAEを提案する。
本手法は,現場のエージェントが提示する社会的特徴と,身体環境の制約を考慮に入れたものである。
すべてのテストデータセットにおいて、ContextVAEモデルはトレーニングが高速で、リアルタイムに高品質なマルチモーダル予測を提供する。
論文 参考訳(メタデータ) (2023-02-21T18:42:24Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - BEV-Locator: An End-to-end Visual Semantic Localization Network Using
Multi-View Images [13.258689143949912]
マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。
BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。
実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
論文 参考訳(メタデータ) (2022-11-27T20:24:56Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera
Images via Spatiotemporal Transformers [39.253627257740085]
マルチカメラ画像に基づく3次元検出やマップセグメンテーションを含む3次元視覚認識タスクは、自律運転システムに不可欠である。
本稿では,複数の自律運転認識タスクをサポートするために,変圧器を用いた統合BEV表現を学習するBEVFormerという新しいフレームワークを提案する。
BEVFormerは低視認性条件下での物体の速度推定とリコールの精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2022-03-31T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。