論文の概要: HE-Drive: Human-Like End-to-End Driving with Vision Language Models
- arxiv url: http://arxiv.org/abs/2410.05051v1
- Date: Mon, 7 Oct 2024 14:06:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 00:38:19.116525
- Title: HE-Drive: Human-Like End-to-End Driving with Vision Language Models
- Title(参考訳): HE-Drive:視覚言語モデルによる人間のようなエンド・ツー・エンドの運転
- Authors: Junming Wang, Xingyu Zhang, Zebin Xing, Songen Gu, Xiaoyang Guo, Yang Hu, Ziying Song, Qian Zhang, Xiaoxiao Long, Wei Yin,
- Abstract要約: HE-Driveは,人類初のエンドツーエンド自動運転システムである。
HE-Driveは、データセット上での最先端性能(すなわち、平均衝突速度をVADより71%削減)と効率(SparseDriveより1.9倍高速)を達成することを示す。
- 参考スコア(独自算出の注目度): 11.845309076856365
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose HE-Drive: the first human-like-centric end-to-end autonomous driving system to generate trajectories that are both temporally consistent and comfortable. Recent studies have shown that imitation learning-based planners and learning-based trajectory scorers can effectively generate and select accuracy trajectories that closely mimic expert demonstrations. However, such trajectory planners and scorers face the dilemma of generating temporally inconsistent and uncomfortable trajectories. To solve the above problems, Our HE-Drive first extracts key 3D spatial representations through sparse perception, which then serves as conditional inputs for a Conditional Denoising Diffusion Probabilistic Models (DDPMs)-based motion planner to generate temporal consistency multi-modal trajectories. A Vision-Language Models (VLMs)-guided trajectory scorer subsequently selects the most comfortable trajectory from these candidates to control the vehicle, ensuring human-like end-to-end driving. Experiments show that HE-Drive not only achieves state-of-the-art performance (i.e., reduces the average collision rate by 71% than VAD) and efficiency (i.e., 1.9X faster than SparseDrive) on the challenging nuScenes and OpenScene datasets but also provides the most comfortable driving experience on real-world data.For more information, visit the project website: https://jmwang0117.github.io/HE-Drive/.
- Abstract(参考訳): 本稿では,時間的整合性と快適性を両立するトラジェクトリを生成する,人類初のエンド・ツー・エンド自動運転システムであるHE-Driveを提案する。
近年の研究では、模倣学習に基づくプランナーと学習に基づく軌道スコアラーが、専門家のデモンストレーションを忠実に模倣する精度の軌跡を効果的に生成し、選択できることが示されている。
しかし、そのような軌道プランナーや得点者は、時間的に矛盾し、不快な軌道を生成するジレンマに直面している。
上記の問題を解決するため,我々のHE-Driveは,まずスパース認識を用いてキー3次元空間表現を抽出し,条件付き拡散確率モデル(DDPM)に基づく運動プランナの条件入力として機能し,時間的整合性を持つマルチモーダル軌道を生成する。
VLM(Vision-Language Models)誘導軌道スコアラは、これらの候補から最も快適な軌道を選択して車両を制御し、人間のようなエンドツーエンドの運転を保証する。
実験によると、HE-Driveは最先端のパフォーマンス(つまり、平均衝突速度をVADより71%削減する)と効率(SparseDriveより1.9倍速い)を、挑戦的なnuSceneとOpenSceneデータセット上で達成するだけでなく、現実世界のデータ上で最も快適な運転体験を提供する。
関連論文リスト
- DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation [34.070813293944944]
視覚に基づくエンドツーエンド自動運転(E2EAD)のためのUADを提案する。
私たちのモチベーションは、現在のE2EADモデルが依然として典型的な駆動スタックのモジュラーアーキテクチャを模倣していることに起因しています。
我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。
論文 参考訳(メタデータ) (2024-06-25T16:12:52Z) - GenAD: Generative End-to-End Autonomous Driving [13.332272121018285]
GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。
本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。
次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
論文 参考訳(メタデータ) (2024-02-18T08:21:05Z) - BAT: Behavior-Aware Human-Like Trajectory Prediction for Autonomous
Driving [24.123577277806135]
我々は行動認識軌道予測モデル(BAT)を考案した。
我々のモデルは行動認識、相互作用認識、優先度認識、位置認識モジュールから構成される。
次世代シミュレーション(NGSIM)、ハイウェイドローン(HighD)、ラウンドアバウンドドローン(RounD)、マカオコネクテッド自律運転(MoCAD)データセットにおけるBATの性能を評価する。
論文 参考訳(メタデータ) (2023-12-11T13:27:51Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。
当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文 参考訳(メタデータ) (2021-01-20T00:31:52Z) - End-to-end Interpretable Neural Motion Planner [78.69295676456085]
複雑な都市環境での自律走行学習のためのニューラルモーションプランナー(NMP)を提案する。
我々は,生lidarデータとhdマップを入力とし,解釈可能な中間表現を生成する全体モデルを設計した。
北米のいくつかの都市で収集された実世界の運転データにおける我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-01-17T14:16:12Z) - Learning Accurate and Human-Like Driving using Semantic Maps and
Attention [152.48143666881418]
本稿では,より正確かつ人間らしく運転できるエンド・ツー・エンド駆動モデルについて検討する。
HERE Technologiesのセマンティックマップとビジュアルマップを活用し、既存のDrive360データセットを拡張します。
私たちのモデルは、実世界の運転データ60時間3000kmのDrive360+HEREデータセットでトレーニングされ、評価されています。
論文 参考訳(メタデータ) (2020-07-10T22:25:27Z) - PLOP: Probabilistic poLynomial Objects trajectory Planning for
autonomous driving [8.105493956485583]
条件付き模倣学習アルゴリズムを用いて,エゴ車とその周辺地域の軌道を推定する。
私たちのアプローチは計算効率が高く、オンボードセンサーのみに依存します。
公開データセットnuScenesでオフラインで評価する。
論文 参考訳(メタデータ) (2020-03-09T16:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。