論文の概要: DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.20665v1
- Date: Tue, 27 May 2025 03:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.380661
- Title: DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving
- Title(参考訳): DriveRX:クロスタスク自律運転のためのビジョンランゲージ推論モデル
- Authors: Muxi Diao, Lele Yang, Hongbo Yin, Zhexu Wang, Yejie Wang, Daxin Tian, Kongming Liang, Zhanyu Ma,
- Abstract要約: 我々は,4つのコアタスク上の構造化推論プロセスとして,自律運転を定式化する統合トレーニングフレームワークであるAutoDriveRLを提案する。
このフレームワーク内では、リアルタイム意思決定用に設計されたクロスタスク推論VLMであるDriveRXを訓練する。
本分析は,視覚エンコーダ設計と報酬誘導推論圧縮の影響を明らかにする。
- 参考スコア(独自算出の注目度): 22.293019898794963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving requires real-time, robust reasoning across perception, prediction, planning, and behavior. However, conventional end-to-end models fail to generalize in complex scenarios due to the lack of structured reasoning. Recent vision-language models (VLMs) have been applied to driving tasks, but they typically rely on isolated modules and static supervision, limiting their ability to support multi-stage decision-making. We present AutoDriveRL, a unified training framework that formulates autonomous driving as a structured reasoning process over four core tasks. Each task is independently modeled as a vision-language question-answering problem and optimized using task-specific reward models, enabling fine-grained reinforcement signals at different reasoning stages. Within this framework, we train DriveRX, a cross-task reasoning VLM designed for real-time decision-making. DriveRX achieves strong performance on a public benchmark, outperforming GPT-4o in behavior reasoning and demonstrating robustness under complex or corrupted driving conditions. Our analysis further highlights the impact of vision encoder design and reward-guided reasoning compression. We will release the AutoDriveRL framework and the DriveRX model to support future research.
- Abstract(参考訳): 自律運転には、知覚、予測、計画、行動にまたがるリアルタイムで堅牢な推論が必要である。
しかし、従来のエンドツーエンドモデルは構造的推論の欠如により複雑なシナリオでは一般化できない。
最近の視覚言語モデル(VLM)はタスクの実行に応用されているが、通常はモジュールの分離と静的監視に依存しており、多段階意思決定をサポートする能力が制限されている。
我々は,4つのコアタスク上の構造化推論プロセスとして,自律運転を定式化する統合トレーニングフレームワークであるAutoDriveRLを提案する。
各タスクは、視覚言語による質問応答問題として独立にモデル化され、タスク固有の報酬モデルを用いて最適化される。
このフレームワーク内では、リアルタイム意思決定用に設計されたクロスタスク推論VLMであるDriveRXを訓練する。
DriveRXは、動作推論においてGPT-4oを上回り、複雑な運転条件や破損した運転条件下で堅牢性を示す。
本分析は,視覚エンコーダ設計と報酬誘導推論圧縮の影響をさらに強調する。
将来の研究をサポートするために、AutoDriveRLフレームワークとDriveRXモデルをリリースします。
関連論文リスト
- Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - X-Driver: Explainable Autonomous Driving with Vision-Language Models [6.053632514335829]
エンドツーエンドの自動運転は大幅に進歩し、システムの単純さや運転性能の向上といったメリットを提供している。
既存のフレームワークはまだクローズドループ評価の成功率の低下に悩まされており、実際のデプロイメントにおける制限を強調している。
我々は,クローズドループ自律運転用に設計された,マルチモーダルな大規模言語モデルフレームワークであるX-Driverを紹介する。
論文 参考訳(メタデータ) (2025-05-08T09:52:55Z) - ReasonDrive: Efficient Visual Question Answering for Autonomous Vehicles with Reasoning-Enhanced Small Vision-Language Models [9.316712964093506]
視覚言語モデル(VLM)は自律運転の約束を示すが、安全にとって重要な透明な推論能力は欠如していることが多い。
微調整中の推論を明示的にモデル化することで、運転決定タスクにおけるVLM性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2025-04-14T23:16:07Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - DRIVE: Dependable Robust Interpretable Visionary Ensemble Framework in Autonomous Driving [1.4104119587524289]
自動運転の最近の進歩は、エンド・ツー・エンドの学習パラダイムへのパラダイムシフトを経験している。
これらのモデルは、しばしば解釈可能性を犠牲にし、信頼、安全、規制の遵守に重大な課題を提起する。
我々は、エンドツーエンドの教師なし運転モデルにおける説明の信頼性と安定性を改善するために設計された総合的なフレームワークDRIVEを紹介する。
論文 参考訳(メタデータ) (2024-09-16T14:40:47Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - Planning-oriented Autonomous Driving [60.93767791255728]
我々は、最終目標、すなわち自動運転車の計画を追求するために、好ましいフレームワークを考案し、最適化すべきであると主張している。
フルスタック運転タスクをひとつのネットワークに組み込んだ総合的なフレームワークであるUnified Autonomous Driving (UniAD)を紹介した。
論文 参考訳(メタデータ) (2022-12-20T10:47:53Z) - Reason induced visual attention for explainable autonomous driving [2.090380922731455]
ディープラーニング (DL) ベースのコンピュータビジョン (CV) モデルは一般的に、解釈性が悪いため、ブラックボックスと見なされる。
本研究の目的は,自律運転におけるDLモデルの解釈可能性を高めることにある。
提案手法は,視覚入力(画像)と自然言語を協調的にモデル化することにより,人間の運転者の学習過程を模倣する。
論文 参考訳(メタデータ) (2021-10-11T18:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。