Fugu-MT 論文翻訳(概要): VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning

論文の概要: VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning

arxiv url: http://arxiv.org/abs/2402.13243v1
Date: Tue, 20 Feb 2024 18:55:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 13:40:02.395677
Title: VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning
Title（参考訳）: VADv2:確率計画によるエンドツーエンドの自動運転
Authors: Shaoyu Chen, Bo Jiang, Hao Gao, Bencheng Liao, Qing Xu, Qian Zhang, Chang Huang, Wenyu Liu, Xinggang Wang
Abstract要約: VADv2は確率計画に基づくエンドツーエンドの駆動モデルである。ルールベースのラッパーなしでも、完全にエンドツーエンドで安定して実行される。
参考スコア（独自算出の注目度）: 42.681012361021224
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Learning a human-like driving policy from large-scale driving demonstrations is promising, but the uncertainty and non-deterministic nature of planning make it challenging. In this work, to cope with the uncertainty problem, we propose VADv2, an end-to-end driving model based on probabilistic planning. VADv2 takes multi-view image sequences as input in a streaming manner, transforms sensor data into environmental token embeddings, outputs the probabilistic distribution of action, and samples one action to control the vehicle. Only with camera sensors, VADv2 achieves state-of-the-art closed-loop performance on the CARLA Town05 benchmark, significantly outperforming all existing methods. It runs stably in a fully end-to-end manner, even without the rule-based wrapper. Closed-loop demos are presented at https://hgao-cv.github.io/VADv2.
Abstract（参考訳）: 大規模な運転デモから人間のような運転方針を学ぶことは有望だが、計画の不確実性と非決定論的性質は困難である。本研究では,不確実性問題に対処するため,確率計画に基づくエンドツーエンド運転モデルであるVADv2を提案する。 vadv2はマルチビュー画像シーケンスをストリーミング形式で入力し、センサデータを環境トークン埋め込みに変換し、アクションの確率分布を出力し、1つのアクションをサンプリングして車両を制御する。カメラセンサーのみで、VADv2はCARLA Town05ベンチマークで最先端のクローズドループ性能を達成し、既存のすべての方法よりも大幅に優れている。ルールベースのラッパーなしでも、完全にエンドツーエンドで安定して実行される。クローズドループのデモはhttps://hgao-cv.github.io/vadv2で公開されている。

関連論文リスト

DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-03-07T11:41:18Z)
Doe-1: Closed-Loop Autonomous Driving with Large World Model [63.99937807085461]
統合された認識,予測,計画のための大規模駆動wOrld modEl(Doe-1)を提案する。我々は自由形式のテキストを認識に使用し、画像トークンを用いてRGB空間内での予測を直接生成する。計画には、アクションを離散トークンに効果的にエンコードするために、位置認識型トークン化器を用いる。
論文参考訳（メタデータ） (2024-12-12T18:59:59Z)
Imagine-2-Drive: High-Fidelity World Modeling in CARLA for Autonomous Vehicles [9.639797094021988]
本稿では,VISTAPlanとDPAの2つのコンポーネントで構成されるフレームワークであるImagine-2-Driveを紹介する。 DPAは、軌道予測のための多モード挙動をモデル化するための拡散に基づくポリシーである。我々は,標準走行距離における技術(SOTA)世界モデルの現状を,ルート完了率と成功率でそれぞれ15%,20%上回った。
論文参考訳（メタデータ） (2024-11-15T13:17:54Z)
Conformal Trajectory Prediction with Multi-View Data Integration in Cooperative Driving [4.628774934971078]
軌道予測に関する現在の研究は、主にエゴ車両の搭載センサーによって収集されたデータに依存している。 V2INetは、既存の単一ビューモデルを拡張することで、マルチビューデータをモデル化するための新しい軌道予測フレームワークである。以上の結果から,FDE(Final Displacement Error)とMR(Miss Rate)において,単一GPUを用いた優れた性能を示した。
論文参考訳（メタデータ） (2024-08-01T08:32:03Z)
BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space [57.68134574076005]
BEVWorldは,マルチモーダルセンサの入力を,環境モデリングのための統一的でコンパクトなBird's Eye View潜在空間にトークン化する手法である。実験は、自律走行タスクにおけるBEVWorldの有効性を示し、将来のシーンを生成する能力を示し、知覚や動き予測のような下流タスクに恩恵を与える。
論文参考訳（メタデータ） (2024-07-08T07:26:08Z)
Planning with Adaptive World Models for Autonomous Driving [50.4439896514353]
運動プランナー(MP)は複雑な都市環境における安全なナビゲーションに不可欠である。最近リリースされたMPベンチマークであるnuPlanは、クローズドループシミュレーションロジックで現実世界の駆動ログを拡張することで、この制限に対処している。本稿では,モデル予測制御(MPC)ベースのプランナであるAdaptiveDriverを提案する。
論文参考訳（メタデータ） (2024-06-15T18:53:45Z)
DeepAccident: A Motion and Accident Prediction Benchmark for V2X Autonomous Driving [76.29141888408265]
本研究では,現実の運転において頻繁に発生する多様な事故シナリオを含む大規模データセットを提案する。提案したDeepAccidentデータセットには57Kの注釈付きフレームと285Kの注釈付きサンプルが含まれており、これは大規模なnuScenesデータセットの約7倍である。
論文参考訳（メタデータ） (2023-04-03T17:37:00Z)
VAD: Vectorized Scene Representation for Efficient Autonomous Driving [44.070636456960045]
VADは、自動運転のためのエンドツーエンドのベクトル化パラダイムである。 VADはベクトル化されたエージェントの動きを利用し、要素を明示的なインスタンスレベルの計画制約としてマップする。 VADは従来のエンドツーエンドの計画手法よりもはるかに高速に動作します。
論文参考訳（メタデータ） (2023-03-21T17:59:22Z)
Generating Evidential BEV Maps in Continuous Driving Space [13.073542165482566]
本稿では,GevBEV という完全確率モデルを提案する。これは2次元駆動空間を、点ベースの空間ガウス分布を持つ確率的バードアイビュー (BEV) マップとして解釈する。 GevBEVは、学習した不確実性から共有する最も重要な情報のみを選択することで、通信オーバーヘッドを低減する。
論文参考訳（メタデータ） (2023-02-06T17:05:50Z)
Policy Pre-training for End-to-end Autonomous Driving via Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文参考訳（メタデータ） (2023-01-03T08:52:49Z)
IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文参考訳（メタデータ） (2021-01-20T00:31:52Z)
PillarFlow: End-to-end Birds-eye-view Flow Estimation for Autonomous Driving [42.8479177012748]
鳥眼ビュー(BeV)におけるLIDARに基づくフロー推定のためのエンドツーエンドディープラーニングフレームワークを提案する。本手法は連続点雲対を入力とし,各セルの動的状態を記述する2次元BeVフローグリッドを生成する。実験の結果, 提案手法は2次元BeV流れを正確に推定するだけでなく, 動的物体と静的物体の両方の追尾性能も向上することがわかった。
論文参考訳（メタデータ） (2020-08-03T20:36:28Z)
MultiXNet: Multiclass Multistage Multimodal Motion Prediction [27.046311751308775]
MultiXNetはライダーセンサデータに基づく検出と動作予測のためのエンドツーエンドのアプローチである。本手法は,複数の都市でSDV群が収集した大規模実世界のデータを用いて評価した。
論文参考訳（メタデータ） (2020-06-03T01:01:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。