論文の概要: DriveQA: Passing the Driving Knowledge Test
- arxiv url: http://arxiv.org/abs/2508.21824v1
- Date: Fri, 29 Aug 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.142663
- Title: DriveQA: Passing the Driving Knowledge Test
- Title(参考訳): DriveQA: 運転知識テストに合格
- Authors: Maolin Wei, Wanzhou Liu, Eshed Ohn-Bar,
- Abstract要約: 交通規制やシナリオを網羅的にカバーする,広範なオープンソーステキストおよびビジョンベースのベンチマークであるDriveQAを紹介する。
現状のLLMとMultimodal LLM(Multimodal LLMs)は,基本的トラフィックルールではよく機能するが,数値的推論や複雑な右側シナリオでは大きな弱点があることを示す。
また、モデルがテキストおよび合成トラフィック知識を内部化し、下流QAタスクを効果的に一般化できることを実証する。
- 参考スコア(独自算出の注目度): 13.569275971952154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: If a Large Language Model (LLM) were to take a driving knowledge test today, would it pass? Beyond standard spatial and visual question-answering (QA) tasks on current autonomous driving benchmarks, driving knowledge tests require a complete understanding of all traffic rules, signage, and right-of-way principles. To pass this test, human drivers must discern various edge cases that rarely appear in real-world datasets. In this work, we present DriveQA, an extensive open-source text and vision-based benchmark that exhaustively covers traffic regulations and scenarios. Through our experiments using DriveQA, we show that (1) state-of-the-art LLMs and Multimodal LLMs (MLLMs) perform well on basic traffic rules but exhibit significant weaknesses in numerical reasoning and complex right-of-way scenarios, traffic sign variations, and spatial layouts, (2) fine-tuning on DriveQA improves accuracy across multiple categories, particularly in regulatory sign recognition and intersection decision-making, (3) controlled variations in DriveQA-V provide insights into model sensitivity to environmental factors such as lighting, perspective, distance, and weather conditions, and (4) pretraining on DriveQA enhances downstream driving task performance, leading to improved results on real-world datasets such as nuScenes and BDD, while also demonstrating that models can internalize text and synthetic traffic knowledge to generalize effectively across downstream QA tasks.
- Abstract(参考訳): もし、もしLarge Language Model(LLM)が今日、運転知識テストを受けるとしたら、それはパスするだろうか?
現在の自律運転ベンチマークにおける標準的な空間的および視覚的質問答え(QA)タスク以外にも、知識テストの駆動には、すべてのトラフィックルール、署名、正しい方向の原則を完全に理解する必要がある。
このテストに合格するには、人間のドライバーは現実世界のデータセットにはほとんど現れない様々なエッジケースを識別する必要がある。
本稿では,交通規制やシナリオを網羅的にカバーする,広範なオープンソーステキストおよびビジョンベースのベンチマークであるDriveQAを紹介する。
DriveQAを用いた実験により、(1)最先端のLCMとMLLM(Multimodal LLM)は、基本的な交通ルールでよく機能するが、数値的推論や複雑な右道シナリオ、交通標識のバリエーション、空間的レイアウトにおいて重大な弱点を示すこと、(2)DriveQAの微調整は、特に規制標識認識や交差点決定において、複数のカテゴリにわたる精度を改善すること、(3)DriveQA-Vの制御された変動は、照明、視点、距離、天候条件などの環境要因に対するモデル感度に対する洞察を提供すること、(4)DriveQAの事前訓練は、下流の運転タスク性能を高め、 nuScenes や BDDのような実世界のデータセットにおける結果を改善すること、さらに、内部のトラフィックをテキスト化して、より効率的に下流のタスクを下流のタスクに適応すること、などを示した。
関連論文リスト
- NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving [10.41584658117874]
自律運転における視覚言語モデル(VLM)の空間的理解と推論能力を評価するために設計された,第1の大規模地下構造に基づく質問応答(QA)ベンチマークであるNuScenes-SpatialQAを提案する。
NuScenesデータセットに基づいて構築されたこのベンチマークは、自動化された3Dシーングラフ生成パイプラインとQA生成パイプラインによって構築される。
このベンチマークを用いて、汎用モデルと空間拡張モデルの両方を含む多様なVLMに関する広範な実験を行い、自律運転における空間能力を総合的に評価した。
論文 参考訳(メタデータ) (2025-04-04T04:43:10Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Automatic Odometry-Less OpenDRIVE Generation From Sparse Point Clouds [1.3351610617039973]
高解像度道路表現は、自動運転機能の成功の鍵となる要素である。
本稿では,ポイントクラウド情報のみに基づいて,現実的な道路表現を生成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-13T08:26:24Z) - A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。
先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。
本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文 参考訳(メタデータ) (2023-06-05T01:01:12Z) - Utilizing Background Knowledge for Robust Reasoning over Traffic
Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。
本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。
交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文 参考訳(メタデータ) (2022-12-04T09:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。