Fugu-MT 論文翻訳(概要): GenAD: Generative End-to-End Autonomous Driving

論文の概要: GenAD: Generative End-to-End Autonomous Driving

arxiv url: http://arxiv.org/abs/2402.11502v1
Date: Sun, 18 Feb 2024 08:21:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 20:45:19.655496
Title: GenAD: Generative End-to-End Autonomous Driving
Title（参考訳）: GenAD: 次世代のエンドツーエンド自動運転
Authors: Wenzhao Zheng, Ruiqi Song, Xianda Guo, Long Chen
Abstract要約: GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
参考スコア（独自算出の注目度）: 15.156187566588912
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Directly producing planning results from raw sensors has been a long-desired solution for autonomous driving and has attracted increasing attention recently. Most existing end-to-end autonomous driving methods factorize this problem into perception, motion prediction, and planning. However, we argue that the conventional progressive pipeline still cannot comprehensively model the entire traffic evolution process, e.g., the future interaction between the ego car and other traffic participants and the structural trajectory prior. In this paper, we explore a new paradigm for end-to-end autonomous driving, where the key is to predict how the ego car and the surroundings evolve given past scenes. We propose GenAD, a generative framework that casts autonomous driving into a generative modeling problem. We propose an instance-centric scene tokenizer that first transforms the surrounding scenes into map-aware instance tokens. We then employ a variational autoencoder to learn the future trajectory distribution in a structural latent space for trajectory prior modeling. We further adopt a temporal model to capture the agent and ego movements in the latent space to generate more effective future trajectories. GenAD finally simultaneously performs motion prediction and planning by sampling distributions in the learned structural latent space conditioned on the instance tokens and using the learned temporal model to generate futures. Extensive experiments on the widely used nuScenes benchmark show that the proposed GenAD achieves state-of-the-art performance on vision-centric end-to-end autonomous driving with high efficiency.
Abstract（参考訳）: 生センサによる計画結果を直接生成することは、自動運転の長年望まれてきたソリューションであり、近年注目を集めている。既存のエンドツーエンドの自動運転手法の多くは、この問題を知覚、運動予測、計画に分解している。しかし、従来のプログレッシブパイプラインは、例えば、エゴカーと他の交通参加者と、それ以前の構造軌道との間の将来の相互作用など、交通進化過程全体を包括的にモデル化することはできない。本稿では,エゴカーと周辺環境が過去の場面でどのように進化するかを予測するために,エンド・ツー・エンドの自動運転の新しいパラダイムを探求する。我々は、自律運転を生成モデル問題に投入する生成フレームワークGenADを提案する。まず,周辺シーンをmap-awareインスタンストークンに変換するインスタンス中心のシーントークン化器を提案する。次に、変動オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。さらに, 潜伏空間におけるエージェントとエゴの動きを捉えるための時間モデルを採用し, より効果的な将来の軌跡を生成する。最後にgenadは、インスタンストークンに条件付けされた学習構造潜在空間の分布をサンプリングし、学習時間モデルを使用して未来を生成することで、動作予測と計画を同時に行う。広く使用されているnuScenesベンチマークの大規模な実験により、提案されたGenADは、高効率でビジョン中心のエンドツーエンド自動運転における最先端のパフォーマンスを達成することが示された。

関連論文リスト

FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving [16.588458512862932]
視覚言語モデル(VLM)は、強力な推論能力のため、自動運転への関心が高まっている。本稿では,モデルが視覚的に考えることを可能にするコテンポラル-T推論手法を提案する。
論文参考訳（メタデータ） (2025-05-23T09:55:32Z)
GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving [12.889523014369884]
本稿では,時空における任意の将来点を予測して統一表現を学習する幾何学的,意味論的自己教師型事前学習手法GASPを提案する。実測値の代わりに幾何学的および意味論的4次元占有場をモデル化することにより、モデルは、時間を通して環境と環境の一般的な表現を学習する。
論文参考訳（メタデータ） (2025-03-19T20:00:27Z)
DriveGen: Towards Infinite Diverse Traffic Scenarios with Large Models [22.21497010925769]
DriveGenは、より多様なトラフィック生成のための大きなモデルを備えた、新しいトラフィックシミュレーションフレームワークである。 DriveGenは、大規模モデルのハイレベルな認識と運転行動の推論を完全に活用する。生成したシナリオとコーナーケースは、最先端のベースラインよりも優れたパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-03-04T06:14:21Z)
The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey [50.62538723793247]
ドライビング・ワールド・モデル(DWM)は、ドライビング・プロセス中のシーンの進化を予測することに焦点を当てている。 DWM法は、自律運転システムが動的運転環境をよりよく知覚し、理解し、相互作用することを可能にする。
論文参考訳（メタデータ） (2025-02-14T18:43:15Z)
GPD-1: Generative Pre-training for Driving [77.06803277735132]
本稿では,これらすべてのタスクを実現するために,GPD-1(Generative Pre-Training for Driving)モデルを提案する。それぞれのシーンをエゴ、エージェント、マップトークンで表現し、統一トークン生成問題として自律運転を定式化する。 GPD-1は、シーン生成、交通シミュレーション、クローズドループシミュレーション、マップ予測、モーションプランニングなど、微調整なしで様々なタスクに適応する。
論文参考訳（メタデータ） (2024-12-11T18:59:51Z)
DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。 nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文参考訳（メタデータ） (2024-09-15T15:55:24Z)
Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。本研究では, 速度, 操舵角度, 軌道, 指令などの柔軟な動作条件を世界モデルに注入することを提案する。 nuScenesデータセットの実験により,本手法は可塑性かつ制御可能な4D占有率を生成可能であることが示された。
論文参考訳（メタデータ） (2024-08-26T11:53:09Z)
Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
コストのかかるラベルを必要とせずにエンドツーエンドの運転を改善するための,新しい自己管理手法を提案する。フレームワーク textbfLAW は LAtent World モデルを用いて,予測エゴアクションと現在のフレームの潜在機能に基づいて,今後の潜在機能を予測する。その結果,オープンループベンチマークとクローズループベンチマークの両方において,コストのかかるアノテーションを使わずに最先端のパフォーマンスを実現することができた。
論文参考訳（メタデータ） (2024-06-12T17:59:21Z)
GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文参考訳（メタデータ） (2024-03-14T17:58:33Z)
Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文参考訳（メタデータ） (2023-12-07T18:53:27Z)
Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文参考訳（メタデータ） (2023-11-29T18:59:47Z)
PPAD: Iterative Interactions of Prediction and Planning for End-to-end Autonomous Driving [57.89801036693292]
PPAD(Iterative Interaction of Prediction and Planning Autonomous Driving)は、予測と計画のより良い統合を目的とした、タイムステップワイドなインタラクションである。我々は,階層的動的キーオブジェクトに着目したego-to-agent,ego-to-map,ego-to-BEVインタラクション機構を設計し,インタラクションをモデル化する。
論文参考訳（メタデータ） (2023-11-14T11:53:24Z)
Smooth-Trajectron++: Augmenting the Trajectron++ behaviour prediction model with smooth attention [0.0]
本研究では,注目モジュールにスムーズな項を組み込んだトラジェクトリ予測モデルであるTrjectron++について検討する。この注意機構は、注意切り替えの限界を示す認知科学の研究にインスパイアされた人間の注意を模倣する。得られたSmooth-Trajectron++モデルの性能を評価し、様々なベンチマークで元のモデルと比較する。
論文参考訳（メタデータ） (2023-05-31T09:19:55Z)
Trajectron++: Dynamically-Feasible Trajectory Forecasting With Heterogeneous Data [37.176411554794214]
人間の動きに関する推論は、安全で社会的に認識されたロボットナビゲーションにとって重要な前提条件である。我々は,多種多様なエージェントの軌道を予測できるモジュール型グラフ構造化リカレントモデルであるTrajectron++を提案する。実世界の軌道予測データセットにおいて,その性能を実証する。
論文参考訳（メタデータ） (2020-01-09T16:47:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。