論文の概要: Enhancing End-to-End Autonomous Driving with Latent World Model
- arxiv url: http://arxiv.org/abs/2406.08481v1
- Date: Wed, 12 Jun 2024 17:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-13 15:27:35.102068
- Title: Enhancing End-to-End Autonomous Driving with Latent World Model
- Title(参考訳): 潜在世界モデルによるエンド・ツー・エンド自動運転の実現
- Authors: Yingyan Li, Lue Fan, Jiawei He, Yuqi Wang, Yuntao Chen, Zhaoxiang Zhang, Tieniu Tan,
- Abstract要約: コストのかかるラベルを必要とせずにエンドツーエンドの運転を改善するための,新しい自己管理手法を提案する。
フレームワーク textbfLAW は LAtent World モデルを用いて,予測エゴアクションと現在のフレームの潜在機能に基づいて,今後の潜在機能を予測する。
その結果,オープンループベンチマークとクローズループベンチマークの両方において,コストのかかるアノテーションを使わずに最先端のパフォーマンスを実現することができた。
- 参考スコア(独自算出の注目度): 78.22157677787239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end autonomous driving has garnered widespread attention. Current end-to-end approaches largely rely on the supervision from perception tasks such as detection, tracking, and map segmentation to aid in learning scene representations. However, these methods require extensive annotations, hindering the data scalability. To address this challenge, we propose a novel self-supervised method to enhance end-to-end driving without the need for costly labels. Specifically, our framework \textbf{LAW} uses a LAtent World model to predict future latent features based on the predicted ego actions and the latent feature of the current frame. The predicted latent features are supervised by the actually observed features in the future. This supervision jointly optimizes the latent feature learning and action prediction, which greatly enhances the driving performance. As a result, our approach achieves state-of-the-art performance in both open-loop and closed-loop benchmarks without costly annotations.
- Abstract(参考訳): エンドツーエンドの自動運転は広く注目を集めている。
現在のエンドツーエンドアプローチは、シーン表現の学習を支援するために、検出、追跡、マップセグメンテーションといった知覚タスクの監督に大きく依存している。
しかし、これらの方法は広範なアノテーションを必要とし、データのスケーラビリティを妨げる。
この課題に対処するために、コストのかかるラベルを必要とせず、エンドツーエンドの運転を改善するための新しい自己管理手法を提案する。
具体的には、フレームワーク \textbf{LAW} は LAtent World モデルを用いて、予測されたエゴアクションと現在のフレームの潜時特徴に基づいて、将来の潜時特徴を予測する。
予測された潜在的特徴は、将来実際に観察される特徴によって管理される。
この監督は、潜在特徴学習と行動予測を協調的に最適化し、駆動性能を大幅に向上させる。
その結果,オープンループベンチマークとクローズループベンチマークの両方において,コストのかかるアノテーションを使わずに最先端のパフォーマンスを実現することができた。
関連論文リスト
- Tracking Meets Large Multimodal Models for Driving Scenario Understanding [76.71815464110153]
大規模マルチモーダルモデル(LMM)は、最近自動運転研究で注目されている。
本稿では3次元の空間的・時間的詳細を復元するための追加入力として追跡情報を統合することを提案する。
本稿では,この追跡情報をLMMに埋め込んで,運転シナリオの理解を深めるための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T17:59:12Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - UnO: Unsupervised Occupancy Fields for Perception and Forecasting [33.205064287409094]
監督されたアプローチは、アノテートされたオブジェクトラベルを利用して世界のモデルを学ぶ。
我々は,LiDARデータから連続した4次元占有領域を自己監督して知覚し,予測することを学ぶ。
この教師なしの世界モデルは、タスクに簡単かつ効果的に転送できる。
論文 参考訳(メタデータ) (2024-06-12T23:22:23Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving? [84.17711168595311]
エンドツーエンドの自動運転は、フルスタックの観点から自律性を目標とする、有望な研究の方向性として浮上している。
比較的単純な駆動シナリオを特徴とするnuScenesデータセットは、エンド・ツー・エンド・モデルにおける知覚情報の未使用化につながる。
予測軌跡が道路に付着するかどうかを評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-05T11:32:31Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - End-to-end Autonomous Driving: Challenges and Frontiers [45.391430626264764]
エンドツーエンドの自動運転におけるモチベーション、ロードマップ、方法論、課題、今後のトレンドについて、270以上の論文を包括的に分析する。
マルチモダリティ、解釈可能性、因果的混乱、堅牢性、世界モデルなど、いくつかの重要な課題を掘り下げます。
基礎モデルと視覚前訓練の現在の進歩と、これらの技術をエンドツーエンドの駆動フレームワークに組み込む方法について論じる。
論文 参考訳(メタデータ) (2023-06-29T14:17:24Z) - Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in
nuScenes [38.43491956142818]
計画課題は、内部意図と外部環境の両方からの入力に基づいて、エゴ車両の軌道を予測することである。
既存の研究の多くは、予測された軌道と地上の真実との衝突率とL2誤差を用いて、nuScenesデータセット上での性能を評価する。
本稿では,これらの既存の評価指標を再評価し,異なる手法の優越性を正確に測定するかどうかを検討する。
我々の単純な手法は、nuScenesデータセットと他の知覚に基づく手法と同じようなエンド・ツー・エンドの計画性能を実現し、平均L2誤差を約20%削減する。
論文 参考訳(メタデータ) (2023-05-17T17:59:11Z) - Unsupervised Self-Driving Attention Prediction via Uncertainty Mining
and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。
結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-17T00:28:33Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Driving in Real Life with Inverse Reinforcement Learning [4.366642479205039]
Inverse Reinforcement Learning (IRL) を用いた密集都市交通における自動車運転のための学習ベースプランナーについて紹介する。
DriveIRLは多種多様な軌道提案を生成し、これらを軽量で解釈可能な安全フィルタでフィルタし、学習モデルを使用して各軌道をスコアする。
ラスベガス・ストリップ(Las Vegas Strip)でDriveIRLを検証し,大量の交通量で完全自律運転を実証した。
論文 参考訳(メタデータ) (2022-06-07T04:36:46Z) - Fully End-to-end Autonomous Driving with Semantic Depth Cloud Mapping
and Multi-Agent [2.512827436728378]
本稿では,エンド・ツー・エンドとマルチタスクの学習方法を用いて学習した新しいディープラーニングモデルを提案する。
このモデルは,CARLAシミュレータ上で,現実の環境を模倣するために,通常の状況と異なる天候のシナリオを用いて評価する。
論文 参考訳(メタデータ) (2022-04-12T03:57:01Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - End-to-End Interactive Prediction and Planning with Optical Flow
Distillation for Autonomous Driving [16.340715765227475]
本稿では,自律運転のためのエンドツーエンド対話型ニューラルモーションプランナ(INMP)を提案する。
INMPはまず鳥の目線空間で特徴マップを生成し、それを処理して他のエージェントを検出し、インタラクティブな予測と計画を共同で実行します。
また, 実時間推定速度を維持しつつ, ネットワーク性能を効果的に向上できる光フロー蒸留パラダイムを採用している。
論文 参考訳(メタデータ) (2021-04-18T14:05:18Z) - The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。
本稿では,構造的事前を損失関数として組み込むことを提案する。
実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-04T03:56:11Z) - End-to-end Autonomous Driving Perception with Sequential Latent
Representation Learning [34.61415516112297]
エンドツーエンドのアプローチでは、システムをクリーンアップし、人間のエンジニアリングの膨大な努力を避けることができる。
潜在空間は、知覚に有用なすべての関連する特徴を捉えるために導入され、逐次潜在表現学習を通じて学習される。
学習したエンドツーエンドの知覚モデルは、最小限の人間工学的努力だけで検出、追跡、ローカライゼーション、マッピングの問題を解決することができる。
論文 参考訳(メタデータ) (2020-03-21T05:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。