Fugu-MT 論文翻訳(概要): WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model

論文の概要: WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model

arxiv url: http://arxiv.org/abs/2412.09951v2
Date: Tue, 17 Dec 2024 09:27:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 14:58:41.092305
Title: WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model
Title（参考訳）: WiseAD:ビジョンランゲージモデルによるエンド・ツー・エンド自動運転の知識向上
Authors: Songyan Zhang, Wenhui Huang, Zihui Gao, Hao Chen, Chen Lv,
Abstract要約: WiseADは、推論、オブジェクト認識、リスク分析、運転提案、軌道計画を駆動できる特殊な視覚言語モデルである。我々は、知識と計画データセットを駆動する共同トレーニングを採用し、モデルが知識に整合した軌道計画を実行できるようにする。運転知識の多様性が拡大するにつれて、重大な事故が顕著に減少し、運転スコアと経路完成度が11.9%、12.4%向上した。
参考スコア（独自算出の注目度）: 17.133104189287714
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of general human knowledge and impressive logical reasoning capacity in rapidly progressed vision-language models (VLMs) have driven increasing interest in applying VLMs to high-level autonomous driving tasks, such as scene understanding and decision-making. However, an in-depth study on the relationship between knowledge proficiency, especially essential driving expertise, and closed-loop autonomous driving performance requires further exploration. In this paper, we investigate the effects of the depth and breadth of fundamental driving knowledge on closed-loop trajectory planning and introduce WiseAD, a specialized VLM tailored for end-to-end autonomous driving capable of driving reasoning, action justification, object recognition, risk analysis, driving suggestions, and trajectory planning across diverse scenarios. We employ joint training on driving knowledge and planning datasets, enabling the model to perform knowledge-aligned trajectory planning accordingly. Extensive experiments indicate that as the diversity of driving knowledge extends, critical accidents are notably reduced, contributing 11.9% and 12.4% improvements in the driving score and route completion on the Carla closed-loop evaluations, achieving state-of-the-art performance. Moreover, WiseAD also demonstrates remarkable performance in knowledge evaluations on both in-domain and out-of-domain datasets.
Abstract（参考訳）: 視覚言語モデル(VLM)における一般知識の出現と印象的な論理的推論能力は、シーン理解や意思決定といった高レベルの自律運転タスクにVLMを適用することへの関心を高めている。しかし、知識能力、特に本質的な運転の専門知識とクローズドループの自動運転性能の関係に関する詳細な研究は、さらなる探索を必要とする。本稿では,基本駆動知識の深さと幅が閉ループ軌道計画に及ぼす影響について検討し,多種多様なシナリオを対象とした推論,行動正当化,オブジェクト認識,リスク分析,運転提案,軌道計画が可能な,エンド・ツー・エンドの自律運転に適したVLMであるWiseADを紹介する。我々は、知識と計画データセットを駆動する共同トレーニングを採用し、モデルが知識に整合した軌道計画を実行できるようにする。広範囲にわたる実験は、運転知識の多様性が拡大するにつれて、臨界事故が顕著に減少し、カルラ閉ループの評価において、運転スコアとルート完了の11.9%と12.4%が改善され、最先端のパフォーマンスが達成されたことを示している。さらに、WiseADはドメイン内データセットとドメイン外データセットの両方での知識評価において顕著なパフォーマンスを示す。

関連論文リスト

Drive-R1: Bridging Reasoning and Planning in VLMs for Autonomous Driving with Reinforcement Learning [38.97689681678924]
本稿では,自律運転におけるシナリオ推論と動作計画の橋渡しとしてDrive-R1を提案する。 Drive-R1は強化学習フレームワークの中で訓練されており、計画にとってより有益な推論経路の発見を動機付けている。我々は、Drive-R1がADにおける推論と計画の橋渡しに有望な方向性を示し、将来の研究や応用の方法論的な洞察を提供すると考えている。
論文参考訳（メタデータ） (2025-06-23T01:57:14Z)
RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文参考訳（メタデータ） (2025-03-18T03:25:57Z)
Learning to Drive by Imitating Surrounding Vehicles [0.6612847014373572]
模倣学習は、複雑な交通環境をナビゲートするために自動運転車を訓練するための有望なアプローチである。本研究では, 周辺車両の観測軌道を利用することで, 模倣学習の促進を図るデータ強化戦略を提案する。我々は、nuPlanデータセット上で、最先端の学習ベースプランニング手法PLUTOを用いて、我々のアプローチを評価し、この拡張手法が複雑な運転シナリオの性能向上につながることを実証した。
論文参考訳（メタデータ） (2025-03-08T00:40:47Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving [5.456780031044544]
本稿では,大規模視覚言語基礎モデルから効率的な視覚ネットワークへ知識を伝達する知識蒸留法を提案する。歩行者行動予測やシーン理解タスクに適用し,より多様で包括的なセマンティック属性を生成する上で,有望な結果を達成する。
論文参考訳（メタデータ） (2025-01-12T01:31:07Z)
Exploring the Causality of End-to-End Autonomous Driving [57.631400236930375]
本稿では,エンドツーエンド自動運転の因果関係を探究し,分析するための包括的アプローチを提案する。私たちの研究は、エンドツーエンドの自動運転の謎を初めて明らかにし、ブラックボックスを白い箱に変えた。
論文参考訳（メタデータ） (2024-07-09T04:56:11Z)
Towards Knowledge-driven Autonomous Driving [37.003908817857095]
本稿では,新しい知識駆動型自動運転技術について考察する。我々の調査は、現在の自動運転システムの限界を浮き彫りにしている。認知、一般化、生涯学習の能力を備えた知識駆動型手法は、これらの課題を克服するための有望な方法として浮上する。
論文参考訳（メタデータ） (2023-12-07T14:17:17Z)
Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文参考訳（メタデータ） (2023-12-06T18:32:33Z)
DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models [30.23228092898916]
本稿では,ReasoningとReflectionモジュールを組み合わせたDiLuフレームワークを提案する。大規模な実験は、ダイリューが経験を蓄積し、一般化能力において大きな優位性を示す能力を証明する。私たちの知識を最大限に活用するために、自動運転車の意思決定において知識駆動能力を活用するのは、私たちは初めてです。
論文参考訳（メタデータ） (2023-09-28T09:41:35Z)
A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文参考訳（メタデータ） (2023-06-05T01:01:12Z)
Unsupervised Self-Driving Attention Prediction via Uncertainty Mining and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文参考訳（メタデータ） (2023-03-17T00:28:33Z)
FBLNet: FeedBack Loop Network for Driver Attention Prediction [50.936478241688114]
非客観的運転経験のモデル化は困難であり,既存手法では運転経験蓄積手順を模擬する機構が欠如している。本稿では,運転経験蓄積手順をモデル化するFeedBack Loop Network (FBLNet)を提案する。提案モデルでは,既存の手法に対して強い優位性を示し,2つのドライバー注意ベンチマークデータセットの性能向上を実現している。
論文参考訳（メタデータ） (2022-12-05T08:25:09Z)
Improving Robustness of Learning-based Autonomous Steering Using Adversarial Images [58.287120077778205]
自動運転用画像入力における学習アルゴリズムw.r.tの堅牢性を解析するためのフレームワークについて紹介する。感度分析の結果を用いて, 「操縦への学習」タスクの総合的性能を向上させるアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-26T02:08:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。