論文の概要: GenAD: Generative End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2402.11502v2
- Date: Tue, 20 Feb 2024 08:58:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 11:41:12.418477
- Title: GenAD: Generative End-to-End Autonomous Driving
- Title(参考訳): GenAD: 次世代のエンドツーエンド自動運転
- Authors: Wenzhao Zheng, Ruiqi Song, Xianda Guo, Long Chen
- Abstract要約: GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。
本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。
次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
- 参考スコア(独自算出の注目度): 15.156187566588912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Directly producing planning results from raw sensors has been a long-desired
solution for autonomous driving and has attracted increasing attention
recently. Most existing end-to-end autonomous driving methods factorize this
problem into perception, motion prediction, and planning. However, we argue
that the conventional progressive pipeline still cannot comprehensively model
the entire traffic evolution process, e.g., the future interaction between the
ego car and other traffic participants and the structural trajectory prior. In
this paper, we explore a new paradigm for end-to-end autonomous driving, where
the key is to predict how the ego car and the surroundings evolve given past
scenes. We propose GenAD, a generative framework that casts autonomous driving
into a generative modeling problem. We propose an instance-centric scene
tokenizer that first transforms the surrounding scenes into map-aware instance
tokens. We then employ a variational autoencoder to learn the future trajectory
distribution in a structural latent space for trajectory prior modeling. We
further adopt a temporal model to capture the agent and ego movements in the
latent space to generate more effective future trajectories. GenAD finally
simultaneously performs motion prediction and planning by sampling
distributions in the learned structural latent space conditioned on the
instance tokens and using the learned temporal model to generate futures.
Extensive experiments on the widely used nuScenes benchmark show that the
proposed GenAD achieves state-of-the-art performance on vision-centric
end-to-end autonomous driving with high efficiency. Code:
https://github.com/wzzheng/GenAD.
- Abstract(参考訳): 生センサによる計画結果を直接生成することは、自動運転の長年望まれてきたソリューションであり、近年注目を集めている。
既存のエンドツーエンドの自動運転手法の多くは、この問題を知覚、運動予測、計画に分解している。
しかし、従来のプログレッシブパイプラインは、例えば、エゴカーと他の交通参加者と、それ以前の構造軌道との間の将来の相互作用など、交通進化過程全体を包括的にモデル化することはできない。
本稿では,エゴカーと周辺環境が過去の場面でどのように進化するかを予測するために,エンド・ツー・エンドの自動運転の新しいパラダイムを探求する。
我々は、自律運転を生成モデル問題に投入する生成フレームワークGenADを提案する。
まず,周辺シーンをmap-awareインスタンストークンに変換するインスタンス中心のシーントークン化器を提案する。
次に、変動オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
さらに, 潜伏空間におけるエージェントとエゴの動きを捉えるための時間モデルを採用し, より効果的な将来の軌跡を生成する。
最後にgenadは、インスタンストークンに条件付けされた学習構造潜在空間の分布をサンプリングし、学習時間モデルを使用して未来を生成することで、動作予測と計画を同時に行う。
広く使用されているnuScenesベンチマークの大規模な実験により、提案されたGenADは、高効率でビジョン中心のエンドツーエンド自動運転における最先端のパフォーマンスを達成することが示された。
コード: https://github.com/wzzheng/genad。
関連論文リスト
- Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。
我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。
アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-14T17:58:33Z) - Trajeglish: Learning the Language of Driving Scenarios [75.61820235290608]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z) - Rethinking Integration of Prediction and Planning in Deep Learning-Based
Automated Driving Systems: A Review [62.997667081978825]
最近の研究は、安全で効率的で快適な運転を実現するためには、相互依存のジョイントステップにおける予測と計画の統合が必要であることを示唆している。
我々は、最先端のディープラーニングベースの予測、計画、統合予測と計画モデルについて体系的にレビューする。
論文 参考訳(メタデータ) (2023-08-10T17:53:03Z) - End-to-end Autonomous Driving: Challenges and Frontiers [46.05011954549315]
自動運転コミュニティは、エンドツーエンドのアルゴリズムフレームワークを採用するアプローチの急速な成長を目撃している。
エンドツーエンドの自動運転におけるモチベーション、ロードマップ、方法論、課題、今後のトレンドについて、250以上の論文を包括的に分析する。
論文 参考訳(メタデータ) (2023-06-29T14:17:24Z) - Smooth-Trajectron++: Augmenting the Trajectron++ behaviour prediction
model with smooth attention [0.0]
本研究では,注目モジュールにスムーズな項を組み込んだトラジェクトリ予測モデルであるTrjectron++について検討する。
この注意機構は、注意切り替えの限界を示す認知科学の研究にインスパイアされた人間の注意を模倣する。
得られたSmooth-Trajectron++モデルの性能を評価し、様々なベンチマークで元のモデルと比較する。
論文 参考訳(メタデータ) (2023-05-31T09:19:55Z) - SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction [12.248428883804763]
3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。
伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。
人間の動作予測のための非自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T01:44:29Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - CARNet: A Dynamic Autoencoder for Learning Latent Dynamics in Autonomous
Driving Tasks [11.489187712465325]
自律運転システムは、世界の抽象的な記述を形成するために、様々なセンサから収集した情報を効果的に活用すべきである。
オートエンコーダのようなディープラーニングモデルは、受信データのストリームからコンパクトな潜在表現を学習できるため、その目的のために使用できる。
この研究は、自動エンコーダとリカレントニューラルネットワークを組み合わせて現在の潜伏表現を学習する、複合dynAmicautoencodeRネットワークアーキテクチャであるCARNetを提案する。
論文 参考訳(メタデータ) (2022-05-18T04:15:42Z) - PiP: Planning-informed Trajectory Prediction for Autonomous Driving [69.41885900996589]
マルチエージェント設定における予測問題に対処するために,計画インフォームド・トラジェクトリ予測(PiP)を提案する。
本手法は,エゴカーの計画により予測過程を通知することにより,高速道路のデータセット上でのマルチエージェント予測の最先端性能を実現する。
論文 参考訳(メタデータ) (2020-03-25T16:09:54Z) - Trajectron++: Dynamically-Feasible Trajectory Forecasting With
Heterogeneous Data [37.176411554794214]
人間の動きに関する推論は、安全で社会的に認識されたロボットナビゲーションにとって重要な前提条件である。
我々は,多種多様なエージェントの軌道を予測できるモジュール型グラフ構造化リカレントモデルであるTrajectron++を提案する。
実世界の軌道予測データセットにおいて,その性能を実証する。
論文 参考訳(メタデータ) (2020-01-09T16:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。