論文の概要: X-Driver: Explainable Autonomous Driving with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.05098v2
- Date: Tue, 03 Jun 2025 11:30:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.579387
- Title: X-Driver: Explainable Autonomous Driving with Vision-Language Models
- Title(参考訳): X-Driver:ビジョンランゲージモデルによる説明可能な自動運転
- Authors: Wei Liu, Jiyuan Zhang, Binxiong Zheng, Yufeng Hu, Yingzhan Lin, Zengfeng Zeng,
- Abstract要約: エンドツーエンドの自動運転は大幅に進歩し、システムの単純さや運転性能の向上といったメリットを提供している。
既存のフレームワークはまだクローズドループ評価の成功率の低下に悩まされており、実際のデプロイメントにおける制限を強調している。
我々は,クローズドループ自律運転用に設計された,マルチモーダルな大規模言語モデルフレームワークであるX-Driverを紹介する。
- 参考スコア(独自算出の注目度): 6.053632514335829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous driving has advanced significantly, offering benefits such as system simplicity and stronger driving performance in both open-loop and closed-loop settings than conventional pipelines. However, existing frameworks still suffer from low success rates in closed-loop evaluations, highlighting their limitations in real-world deployment. In this paper, we introduce X-Driver, a unified multi-modal large language models(MLLMs) framework designed for closed-loop autonomous driving, leveraging Chain-of-Thought(CoT) and autoregressive modeling to enhance perception and decision-making. We validate X-Driver across multiple autonomous driving tasks using public benchmarks in CARLA simulation environment, including Bench2Drive[6]. Our experimental results demonstrate superior closed-loop performance, surpassing the current state-of-the-art(SOTA) while improving the interpretability of driving decisions. These findings underscore the importance of structured reasoning in end-to-end driving and establish X-Driver as a strong baseline for future research in closed-loop autonomous driving.
- Abstract(参考訳): エンドツーエンドの自動運転は、従来のパイプラインよりも、オープンループとクローズループの両方で、システムの単純さやより強力な駆動性能などのメリットを提供する。
しかし、既存のフレームワークはクローズドループ評価の成功率の低さに悩まされており、実際のデプロイメントにおける制限を強調している。
本稿では,マルチモーダルな大規模言語モデル(MLLM)フレームワークであるX-Driverを紹介する。
我々は,ベンチ2Drive[6]を含むCARLAシミュレーション環境における公的なベンチマークを用いて,複数の自律走行タスクにわたるX-Driverを検証する。
実験の結果,運転決定の解釈性を向上しつつ,現在最先端(SOTA)を超越したクローズドループ性能が得られた。
これらの知見は, エンド・ツー・エンド運転における構造化推論の重要性を浮き彫りにして, X-Driverを閉ループ自動運転研究の強力なベースラインとして確立するものである。
関連論文リスト
- TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Exploring the Causality of End-to-End Autonomous Driving [57.631400236930375]
本稿では,エンドツーエンド自動運転の因果関係を探究し,分析するための包括的アプローチを提案する。
私たちの研究は、エンドツーエンドの自動運転の謎を初めて明らかにし、ブラックボックスを白い箱に変えた。
論文 参考訳(メタデータ) (2024-07-09T04:56:11Z) - DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving [81.04174379726251]
本稿では,DriveCoTというエンド・ツー・エンドの運転データセットを総合的に収集する。
センサーデータ、制御決定、および推論プロセスを示すチェーン・オブ・シークレット・ラベルが含まれている。
我々は,私たちのデータセットに基づいてトレーニングされたDriveCoT-Agentと呼ばれるベースラインモデルを提案し,連鎖予測と最終決定を生成する。
論文 参考訳(メタデータ) (2024-03-25T17:59:01Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - End-to-end Autonomous Driving: Challenges and Frontiers [45.391430626264764]
エンドツーエンドの自動運転におけるモチベーション、ロードマップ、方法論、課題、今後のトレンドについて、270以上の論文を包括的に分析する。
マルチモダリティ、解釈可能性、因果的混乱、堅牢性、世界モデルなど、いくつかの重要な課題を掘り下げます。
基礎モデルと視覚前訓練の現在の進歩と、これらの技術をエンドツーエンドの駆動フレームワークに組み込む方法について論じる。
論文 参考訳(メタデータ) (2023-06-29T14:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。