Fugu-MT 論文翻訳(概要): Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving

論文の概要: Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving

arxiv url: http://arxiv.org/abs/2501.08861v1
Date: Wed, 15 Jan 2025 15:20:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-16 16:46:28.46539
Title: Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving
Title（参考訳）: エンドツーエンド自動運転のための3次元言語事前学習による生成計画
Authors: Tengpeng Li, Hanli Wang, Xianfei Li, Wenlong Liao, Tao He, Pai Peng,
Abstract要約: GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。 GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
参考スコア（独自算出の注目度）: 20.33096710167997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autonomous driving is a challenging task that requires perceiving and understanding the surrounding environment for safe trajectory planning. While existing vision-based end-to-end models have achieved promising results, these methods are still facing the challenges of vision understanding, decision reasoning and scene generalization. To solve these issues, a generative planning with 3D-vision language pre-training model named GPVL is proposed for end-to-end autonomous driving. The proposed paradigm has two significant aspects. On one hand, a 3D-vision language pre-training module is designed to bridge the gap between visual perception and linguistic understanding in the bird's eye view. On the other hand, a cross-modal language model is introduced to generate holistic driving decisions and fine-grained trajectories with perception and navigation information in an auto-regressive manner. Experiments on the challenging nuScenes dataset demonstrate that the proposed scheme achieves excellent performances compared with state-of-the-art methods. Besides, the proposed GPVL presents strong generalization ability and real-time potential when handling high-level commands in various scenarios. It is believed that the effective, robust and efficient performance of GPVL is crucial for the practical application of future autonomous driving systems. Code is available at https://github.com/ltp1995/GPVL
Abstract（参考訳）: 自律運転は、安全な軌道計画のために周囲の環境を理解し理解する必要がある課題である。既存のビジョンベースエンド・ツー・エンドモデルは有望な成果を上げてきたが、これらの手法はまだ視覚理解、意思決定の推論、シーンの一般化といった課題に直面している。これらの問題を解決するために,GPVLという3次元言語事前学習モデルを用いた生成計画を提案する。提案されたパラダイムには2つの重要な側面がある。一方、3Dビジョン言語事前学習モジュールは、鳥の視線における視覚的知覚と言語的理解のギャップを埋めるように設計されている。一方,クロスモーダル言語モデルを導入して,認識とナビゲーション情報を自己回帰的に表現した全体的運転決定と微粒な軌跡を生成する。挑戦的なnuScenesデータセットの実験は、提案手法が最先端手法と比較して優れた性能を発揮することを示した。さらに,提案したGPVLは,様々なシナリオで高レベルコマンドを扱う際に,強力な一般化能力とリアルタイムポテンシャルを示す。 GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。コードはhttps://github.com/ltp 1995/GPVLで公開されている。

関連論文リスト

OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文参考訳（メタデータ） (2025-04-06T03:54:21Z)
VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。 VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-12-19T01:53:36Z)
DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。 nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文参考訳（メタデータ） (2024-09-15T15:55:24Z)
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文参考訳（メタデータ） (2024-08-19T09:53:49Z)
OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文参考訳（メタデータ） (2024-05-02T17:59:24Z)
VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文参考訳（メタデータ） (2024-01-10T23:00:40Z)
Policy Pre-training for End-to-end Autonomous Driving via Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文参考訳（メタデータ） (2023-01-03T08:52:49Z)
ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文参考訳（メタデータ） (2022-07-15T16:57:43Z)
Learning Interpretable End-to-End Vision-Based Motion Planning for Autonomous Driving with Optical Flow Distillation [11.638798976654327]
IVMPは、自動運転のための解釈可能なエンドツーエンドのビジョンベースのモーションプランニングアプローチです。我々は,実時間性能を維持しつつネットワークを効果的に強化できる光フロー蒸留パラダイムを開発した。我々のIVMPは、人間ドライバーをはるかに高い成功率で模倣する最先端のアプローチを著しく上回っています。
論文参考訳（メタデータ） (2021-04-18T13:51:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。