論文の概要: Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2407.21126v1
- Date: Tue, 30 Jul 2024 18:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:35:32.228351
- Title: Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving
- Title(参考訳): 自律運転のための自己監督型マルチフューチャー作業予測
- Authors: Bernard Lange, Masha Itkina, Jiachen Li, Mykel J. Kochenderfer,
- Abstract要約: LiDARで生成された占有グリッドマップ(L-OGM)は、シーン表現のための頑丈な鳥眼ビューを提供する。
提案するフレームワークは、生成アーキテクチャの潜在空間においてL-OGM予測を行う。
我々は、リアルタイムに高品質な予測を提供するシングルステップデコーダまたは拡散ベースのバッチデコーダを用いて予測をデコードする。
- 参考スコア(独自算出の注目度): 45.886941596233974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Environment prediction frameworks are critical for the safe navigation of autonomous vehicles (AVs) in dynamic settings. LiDAR-generated occupancy grid maps (L-OGMs) offer a robust bird's-eye view for the scene representation, enabling self-supervised joint scene predictions while exhibiting resilience to partial observability and perception detection failures. Prior approaches have focused on deterministic L-OGM prediction architectures within the grid cell space. While these methods have seen some success, they frequently produce unrealistic predictions and fail to capture the stochastic nature of the environment. Additionally, they do not effectively integrate additional sensor modalities present in AVs. Our proposed framework performs stochastic L-OGM prediction in the latent space of a generative architecture and allows for conditioning on RGB cameras, maps, and planned trajectories. We decode predictions using either a single-step decoder, which provides high-quality predictions in real-time, or a diffusion-based batch decoder, which can further refine the decoded frames to address temporal consistency issues and reduce compression losses. Our experiments on the nuScenes and Waymo Open datasets show that all variants of our approach qualitatively and quantitatively outperform prior approaches.
- Abstract(参考訳): 環境予測フレームワークは、ダイナミックな環境での自動運転車(AV)の安全なナビゲーションに不可欠である。
LiDARで生成された占有グリッドマップ(L-OGM)は、シーン表現のための頑健な鳥眼ビューを提供し、部分観測性や知覚検出障害に対するレジリエンスを示しながら、自己監督された共同シーン予測を可能にする。
従来のアプローチでは、グリッドセル空間内の決定論的L-OGM予測アーキテクチャに焦点が当てられていた。
これらの手法はいくつかの成功を見てきたが、しばしば非現実的な予測を生み出し、環境の確率的な性質を捉えられなかった。
さらに、それらはAVに存在する追加のセンサーモダリティを効果的に統合しない。
提案フレームワークは,RGBカメラや地図,計画された軌道上での条件付けが可能な,遺伝的L-OGM予測を行う。
我々は、リアルタイムに高品質な予測を提供するシングルステップデコーダまたは拡散ベースのバッチデコーダを用いて予測をデコードし、時間的一貫性の問題に対処し、圧縮損失を低減する。
nuScenesとWaymo Openデータセットに関する我々の実験は、我々のアプローチのすべての変種が、定性的かつ定量的に以前のアプローチより優れていることを示している。
関連論文リスト
- Fast and Efficient Transformer-based Method for Bird's Eye View Instance Prediction [0.8458547573621331]
本稿では,単純化されたパラダイムに基づく新しいBEVインスタンス予測アーキテクチャを提案する。
提案システムは,パラメータ数と推定時間を削減することを目的として,速度を優先する。
提案されたアーキテクチャの実装は、PyTorchバージョン2.1のパフォーマンス改善に最適化されている。
論文 参考訳(メタデータ) (2024-11-11T10:35:23Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - A Novel Deep Neural Network for Trajectory Prediction in Automated
Vehicles Using Velocity Vector Field [12.067838086415833]
本稿では,データ駆動学習に基づく手法と,自然に着想を得た概念から生成された速度ベクトル場(VVF)を組み合わせた軌道予測手法を提案する。
精度は、正確な軌道予測のための過去の観測の長い歴史の要求を緩和する観測窓の減少と一致している。
論文 参考訳(メタデータ) (2023-09-19T22:14:52Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - LOPR: Latent Occupancy PRediction using Generative Models [49.15687400958916]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。
本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-03T22:04:00Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - SLPC: a VRNN-based approach for stochastic lidar prediction and
completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。
提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。
VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文 参考訳(メタデータ) (2021-02-19T11:56:44Z) - Spatio-Temporal Graph Dual-Attention Network for Multi-Agent Prediction
and Tracking [23.608125748229174]
異種エージェントを含む多エージェント軌道予測のための汎用生成ニューラルシステムを提案する。
提案システムは, 軌道予測のための3つのベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-02-18T02:25:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。