論文の概要: VLP: Vision Language Planning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2401.05577v4
- Date: Sat, 23 Nov 2024 18:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:15:44.824631
- Title: VLP: Vision Language Planning for Autonomous Driving
- Title(参考訳): VLP:自動運転のためのビジョン言語計画
- Authors: Chenbin Pan, Burhaneddin Yaman, Tommaso Nesti, Abhirup Mallik, Alessandro G Allievi, Senem Velipasalar, Liu Ren,
- Abstract要約: 本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
- 参考スコア(独自算出の注目度): 52.640371249017335
- License:
- Abstract: Autonomous driving is a complex and challenging task that aims at safe motion planning through scene understanding and reasoning. While vision-only autonomous driving methods have recently achieved notable performance, through enhanced scene understanding, several key issues, including lack of reasoning, low generalization performance and long-tail scenarios, still need to be addressed. In this paper, we present VLP, a novel Vision-Language-Planning framework that exploits language models to bridge the gap between linguistic understanding and autonomous driving. VLP enhances autonomous driving systems by strengthening both the source memory foundation and the self-driving car's contextual understanding. VLP achieves state-of-the-art end-to-end planning performance on the challenging NuScenes dataset by achieving 35.9\% and 60.5\% reduction in terms of average L2 error and collision rates, respectively, compared to the previous best method. Moreover, VLP shows improved performance in challenging long-tail scenarios and strong generalization capabilities when faced with new urban environments.
- Abstract(参考訳): 自律運転は、シーン理解と推論による安全な動き計画を目的とした、複雑で困難な作業である。
視覚のみの自律運転法は、シーン理解の強化を通じて、最近顕著なパフォーマンスを達成したが、推論の欠如、一般化性能の低さ、ロングテールシナリオなど、いくつかの重要な問題に対処する必要がある。
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを活用する新しいビジョン・ランゲージ・プランニングフレームワークであるVLPを提案する。
VLPは、ソースメモリ基盤と自動運転車のコンテキスト理解の両方を強化することで、自律運転システムを強化する。
VLPは,従来の最良手法と比較して,平均L2誤差と衝突率をそれぞれ35.9\%,60.5\%削減することで,挑戦的なNuScenesデータセットの最先端のプランニング性能を達成している。
さらに、VLPは、新しい都市環境に直面した場合、挑戦的なロングテールシナリオと強力な一般化能力の性能向上を示す。
関連論文リスト
- CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving [15.551625571158056]
我々はSimpleLLM4ADと呼ばれるe2eAD法を提案する。
本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。
我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
論文 参考訳(メタデータ) (2024-07-31T02:35:33Z) - Tokenize the World into Object-level Knowledge to Address Long-tail Events in Autonomous Driving [43.156632952193966]
従来のエンド・ツー・エンドの運転モデルは、トレーニング・ディストリビューション内での珍しいまたは目に見えない入力のために、長い尾のイベントに悩まされる。
オブジェクトレベルの知識に世界をトークン化する新しい多モード大規模言語モデル(MM-LLM)であるTOKENを提案する。
ToKENは、従来のエンドツーエンドの駆動モデルを活用することにより、データの不足と非効率なトークン化を効果的に軽減する。
論文 参考訳(メタデータ) (2024-07-01T04:34:50Z) - DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models [31.552397390480525]
視覚言語モデル(VLM)を活用した自律運転システムDriveVLMを紹介する。
DriveVLMは、シーン記述、シーン分析、階層計画のための推論モジュールのユニークな組み合わせを統合している。
本稿では,DriveVLMの強みを従来の自律走行パイプラインと相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。
論文 参考訳(メタデータ) (2024-02-19T17:04:04Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - GPT-Driver: Learning to Drive with GPT [47.14350537515685]
我々は,OpenAI GPT-3.5モデルを自律走行車のための信頼性の高い運動プランナに変換する,シンプルで効果的なアプローチを提案する。
我々は、Large Language Models(LLMs)固有の強力な推論能力と一般化の可能性に乗じる。
我々は,大規模な nuScenes データセットに対する我々のアプローチを評価し,GPT ベースの運動プランナの有効性,一般化能力,解釈可能性について検証した。
論文 参考訳(メタデータ) (2023-10-02T17:59:57Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the
Backbone [67.13773226242242]
ビデオ言語事前学習は、様々なビジョンや言語タスクに一般化することができる。
ビデオ言語事前学習フレームワークは、個別のビデオエンコーダと言語エンコーダを使用し、微調整時にのみタスク固有のクロスモーダル情報を学ぶ。
新たな世代のエゴセントリックなビデオ言語事前訓練は、ビデオと言語のバックボーンに直接クロスモーダル融合を組み込む。
論文 参考訳(メタデータ) (2023-07-11T17:50:15Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。