論文の概要: Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2501.08861v1
- Date: Wed, 15 Jan 2025 15:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:21.102454
- Title: Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving
- Title(参考訳): エンドツーエンド自動運転のための3次元言語事前学習による生成計画
- Authors: Tengpeng Li, Hanli Wang, Xianfei Li, Wenlong Liao, Tao He, Pai Peng,
- Abstract要約: GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
- 参考スコア(独自算出の注目度): 20.33096710167997
- License:
- Abstract: Autonomous driving is a challenging task that requires perceiving and understanding the surrounding environment for safe trajectory planning. While existing vision-based end-to-end models have achieved promising results, these methods are still facing the challenges of vision understanding, decision reasoning and scene generalization. To solve these issues, a generative planning with 3D-vision language pre-training model named GPVL is proposed for end-to-end autonomous driving. The proposed paradigm has two significant aspects. On one hand, a 3D-vision language pre-training module is designed to bridge the gap between visual perception and linguistic understanding in the bird's eye view. On the other hand, a cross-modal language model is introduced to generate holistic driving decisions and fine-grained trajectories with perception and navigation information in an auto-regressive manner. Experiments on the challenging nuScenes dataset demonstrate that the proposed scheme achieves excellent performances compared with state-of-the-art methods. Besides, the proposed GPVL presents strong generalization ability and real-time potential when handling high-level commands in various scenarios. It is believed that the effective, robust and efficient performance of GPVL is crucial for the practical application of future autonomous driving systems. Code is available at https://github.com/ltp1995/GPVL
- Abstract(参考訳): 自律運転は、安全な軌道計画のために周囲の環境を理解し理解する必要がある課題である。
既存のビジョンベースエンド・ツー・エンドモデルは有望な成果を上げてきたが、これらの手法はまだ視覚理解、意思決定の推論、シーンの一般化といった課題に直面している。
これらの問題を解決するために,GPVLという3次元言語事前学習モデルを用いた生成計画を提案する。
提案されたパラダイムには2つの重要な側面がある。
一方、3Dビジョン言語事前学習モジュールは、鳥の視線における視覚的知覚と言語的理解のギャップを埋めるように設計されている。
一方,クロスモーダル言語モデルを導入して,認識とナビゲーション情報を自己回帰的に表現した全体的運転決定と微粒な軌跡を生成する。
挑戦的なnuScenesデータセットの実験は、提案手法が最先端手法と比較して優れた性能を発揮することを示した。
さらに,提案したGPVLは,様々なシナリオで高レベルコマンドを扱う際に,強力な一般化能力とリアルタイムポテンシャルを示す。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
コードはhttps://github.com/ltp 1995/GPVLで公開されている。
関連論文リスト
- DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - A Cognitive-Based Trajectory Prediction Approach for Autonomous Driving [21.130543517747995]
本稿では,教師による知識蒸留の枠組みを取り入れたHuman-Like Trajectory Prediction (H)モデルを提案する。
教師」モデルは人間の脳、特に後頭葉と側頭葉の機能の視覚的処理を模倣する。
学生」モデルはリアルタイムのインタラクションと意思決定に焦点を合わせ、正確な予測のために重要な知覚的手がかりを捉えます。
論文 参考訳(メタデータ) (2024-02-29T15:22:26Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z) - Learning Interpretable End-to-End Vision-Based Motion Planning for
Autonomous Driving with Optical Flow Distillation [11.638798976654327]
IVMPは、自動運転のための解釈可能なエンドツーエンドのビジョンベースのモーションプランニングアプローチです。
我々は,実時間性能を維持しつつネットワークを効果的に強化できる光フロー蒸留パラダイムを開発した。
我々のIVMPは、人間ドライバーをはるかに高い成功率で模倣する最先端のアプローチを著しく上回っています。
論文 参考訳(メタデータ) (2021-04-18T13:51:25Z) - End-to-end Interpretable Neural Motion Planner [78.69295676456085]
複雑な都市環境での自律走行学習のためのニューラルモーションプランナー(NMP)を提案する。
我々は,生lidarデータとhdマップを入力とし,解釈可能な中間表現を生成する全体モデルを設計した。
北米のいくつかの都市で収集された実世界の運転データにおける我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-01-17T14:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。