論文の概要: WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model
- arxiv url: http://arxiv.org/abs/2412.09951v2
- Date: Tue, 17 Dec 2024 09:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:05.479257
- Title: WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model
- Title(参考訳): WiseAD:ビジョンランゲージモデルによるエンド・ツー・エンド自動運転の知識向上
- Authors: Songyan Zhang, Wenhui Huang, Zihui Gao, Hao Chen, Chen Lv,
- Abstract要約: WiseADは、推論、オブジェクト認識、リスク分析、運転提案、軌道計画を駆動できる特殊な視覚言語モデルである。
我々は、知識と計画データセットを駆動する共同トレーニングを採用し、モデルが知識に整合した軌道計画を実行できるようにする。
運転知識の多様性が拡大するにつれて、重大な事故が顕著に減少し、運転スコアと経路完成度が11.9%、12.4%向上した。
- 参考スコア(独自算出の注目度): 17.133104189287714
- License:
- Abstract: The emergence of general human knowledge and impressive logical reasoning capacity in rapidly progressed vision-language models (VLMs) have driven increasing interest in applying VLMs to high-level autonomous driving tasks, such as scene understanding and decision-making. However, an in-depth study on the relationship between knowledge proficiency, especially essential driving expertise, and closed-loop autonomous driving performance requires further exploration. In this paper, we investigate the effects of the depth and breadth of fundamental driving knowledge on closed-loop trajectory planning and introduce WiseAD, a specialized VLM tailored for end-to-end autonomous driving capable of driving reasoning, action justification, object recognition, risk analysis, driving suggestions, and trajectory planning across diverse scenarios. We employ joint training on driving knowledge and planning datasets, enabling the model to perform knowledge-aligned trajectory planning accordingly. Extensive experiments indicate that as the diversity of driving knowledge extends, critical accidents are notably reduced, contributing 11.9% and 12.4% improvements in the driving score and route completion on the Carla closed-loop evaluations, achieving state-of-the-art performance. Moreover, WiseAD also demonstrates remarkable performance in knowledge evaluations on both in-domain and out-of-domain datasets.
- Abstract(参考訳): 視覚言語モデル(VLM)における一般知識の出現と印象的な論理的推論能力は、シーン理解や意思決定といった高レベルの自律運転タスクにVLMを適用することへの関心を高めている。
しかし、知識能力、特に本質的な運転の専門知識とクローズドループの自動運転性能の関係に関する詳細な研究は、さらなる探索を必要とする。
本稿では,基本駆動知識の深さと幅が閉ループ軌道計画に及ぼす影響について検討し,多種多様なシナリオを対象とした推論,行動正当化,オブジェクト認識,リスク分析,運転提案,軌道計画が可能な,エンド・ツー・エンドの自律運転に適したVLMであるWiseADを紹介する。
我々は、知識と計画データセットを駆動する共同トレーニングを採用し、モデルが知識に整合した軌道計画を実行できるようにする。
広範囲にわたる実験は、運転知識の多様性が拡大するにつれて、臨界事故が顕著に減少し、カルラ閉ループの評価において、運転スコアとルート完了の11.9%と12.4%が改善され、最先端のパフォーマンスが達成されたことを示している。
さらに、WiseADはドメイン内データセットとドメイン外データセットの両方での知識評価において顕著なパフォーマンスを示す。
関連論文リスト
- Exploring the Causality of End-to-End Autonomous Driving [57.631400236930375]
本稿では,エンドツーエンド自動運転の因果関係を探究し,分析するための包括的アプローチを提案する。
私たちの研究は、エンドツーエンドの自動運転の謎を初めて明らかにし、ブラックボックスを白い箱に変えた。
論文 参考訳(メタデータ) (2024-07-09T04:56:11Z) - Towards Knowledge-driven Autonomous Driving [37.003908817857095]
本稿では,新しい知識駆動型自動運転技術について考察する。
我々の調査は、現在の自動運転システムの限界を浮き彫りにしている。
認知、一般化、生涯学習の能力を備えた知識駆動型手法は、これらの課題を克服するための有望な方法として浮上する。
論文 参考訳(メタデータ) (2023-12-07T14:17:17Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - A Language Agent for Autonomous Driving [31.359413767191608]
本稿では,人間のような知性を自律運転システムに統合するためのパラダイムシフトを提案する。
当社のアプローチはAgent-Driverと呼ばれ,汎用ツールライブラリを導入して,従来の自律走行パイプラインを変革する。
LLM(Large Language Models)によって駆動されるエージェントドライブには直感的な常識と堅牢な推論能力が備わっています。
論文 参考訳(メタデータ) (2023-11-17T18:59:56Z) - DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large
Language Models [30.23228092898916]
本稿では,ReasoningとReflectionモジュールを組み合わせたDiLuフレームワークを提案する。
大規模な実験は、ダイリューが経験を蓄積し、一般化能力において大きな優位性を示す能力を証明する。
私たちの知識を最大限に活用するために、自動運転車の意思決定において知識駆動能力を活用するのは、私たちは初めてです。
論文 参考訳(メタデータ) (2023-09-28T09:41:35Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。
先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。
本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文 参考訳(メタデータ) (2023-06-05T01:01:12Z) - Data and Knowledge for Overtaking Scenarios in Autonomous Driving [0.0]
オーバーテイク・エクササイズは、運転において最も重要な行動の1つである。
文献で利用できる作業量にもかかわらず、ほんの少しの操作しか処理できない。
この研究は、この領域に寄与し、新たな合成データセットを提示する。
論文 参考訳(メタデータ) (2023-05-30T21:27:05Z) - Unsupervised Self-Driving Attention Prediction via Uncertainty Mining
and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。
結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-17T00:28:33Z) - FBLNet: FeedBack Loop Network for Driver Attention Prediction [50.936478241688114]
非客観的運転経験のモデル化は困難であり,既存手法では運転経験蓄積手順を模擬する機構が欠如している。
本稿では,運転経験蓄積手順をモデル化するFeedBack Loop Network (FBLNet)を提案する。
提案モデルでは,既存の手法に対して強い優位性を示し,2つのドライバー注意ベンチマークデータセットの性能向上を実現している。
論文 参考訳(メタデータ) (2022-12-05T08:25:09Z) - Improving Robustness of Learning-based Autonomous Steering Using
Adversarial Images [58.287120077778205]
自動運転用画像入力における学習アルゴリズムw.r.tの堅牢性を解析するためのフレームワークについて紹介する。
感度分析の結果を用いて, 「操縦への学習」 タスクの総合的性能を向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-26T02:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。