Fugu-MT 論文翻訳(概要): Can LVLMs Obtain a Driver's License? A Benchmark Towards Reliable AGI for Autonomous Driving

論文の概要: Can LVLMs Obtain a Driver's License? A Benchmark Towards Reliable AGI for Autonomous Driving

arxiv url: http://arxiv.org/abs/2409.02914v1
Date: Wed, 4 Sep 2024 17:52:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-05 16:37:56.154900
Title: Can LVLMs Obtain a Driver's License? A Benchmark Towards Reliable AGI for Autonomous Driving
Title（参考訳）: LVLMは運転免許を取得できるか? - 自動運転のための信頼性のあるAGIに向けてのベンチマーク
Authors: Yuhang Lu, Yichen Yao, Jiadong Tu, Jiangnan Shao, Yuexin Ma, Xinge Zhu,
Abstract要約: 各国から収集された100万件以上のデータを含む大規模データセットであるIDKBを提案する。運転免許取得のプロセスと同様に、IDKBは理論から実践への運転に必要な知識のほとんど全てを包含している。
参考スコア（独自算出の注目度）: 24.485164073626674
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Vision-Language Models (LVLMs) have recently garnered significant attention, with many efforts aimed at harnessing their general knowledge to enhance the interpretability and robustness of autonomous driving models. However, LVLMs typically rely on large, general-purpose datasets and lack the specialized expertise required for professional and safe driving. Existing vision-language driving datasets focus primarily on scene understanding and decision-making, without providing explicit guidance on traffic rules and driving skills, which are critical aspects directly related to driving safety. To bridge this gap, we propose IDKB, a large-scale dataset containing over one million data items collected from various countries, including driving handbooks, theory test data, and simulated road test data. Much like the process of obtaining a driver's license, IDKB encompasses nearly all the explicit knowledge needed for driving from theory to practice. In particular, we conducted comprehensive tests on 15 LVLMs using IDKB to assess their reliability in the context of autonomous driving and provided extensive analysis. We also fine-tuned popular models, achieving notable performance improvements, which further validate the significance of our dataset. The project page can be found at: \url{https://4dvlab.github.io/project_page/idkb.html}
Abstract（参考訳）: 近年、LVLM(Large Vision-Language Models)は、自律運転モデルの解釈可能性と堅牢性を高めるために、その一般的な知識を活用することを目的として、大きな注目を集めている。しかし、LVLMは通常、大規模で汎用的なデータセットに依存しており、専門的かつ安全な運転に必要な専門知識が欠如している。既存の視覚言語駆動データセットは、交通ルールや運転スキルに関する明確なガイダンスを提供することなく、主にシーン理解と意思決定に焦点を当てている。このギャップを埋めるため、我々は、ハンドブック、理論テストデータ、シミュレーション道路試験データなど、さまざまな国から収集された100万件以上のデータを含む大規模データセットIDKBを提案する。運転免許取得のプロセスと同様に、IDKBは理論から実践への運転に必要な知識のほとんど全てを包含している。特に、IDKBを用いた15個のLVLMの総合的なテストを行い、自律運転の文脈における信頼性を評価し、広範囲な分析を行った。また、一般的なモデルを微調整し、顕著なパフォーマンス向上を実現し、データセットの重要性をさらに検証しました。プロジェクトページは以下の通りである。

関連論文リスト

DriveQA: Passing the Driving Knowledge Test [13.569275971952154]
交通規制やシナリオを網羅的にカバーする,広範なオープンソーステキストおよびビジョンベースのベンチマークであるDriveQAを紹介する。現状のLLMとMultimodal LLM(Multimodal LLMs)は,基本的トラフィックルールではよく機能するが,数値的推論や複雑な右側シナリオでは大きな弱点があることを示す。また、モデルがテキストおよび合成トラフィック知識を内部化し、下流QAタスクを効果的に一般化できることを実証する。
論文参考訳（メタデータ） (2025-08-29T17:59:53Z)
Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding [10.242043337117005]
視覚大言語モデル(VLLM)は、画像キャプションや視覚的質問応答といった一般的な視覚的タスクにおいて、印象的な機能を示している。しかし、自律運転のような専門的で安全に重要な分野におけるその効果は、まだ明らかにされていない。 DVBenchは、安全クリティカルな運転映像の理解において、VLLMの性能を評価するために設計された先駆的なベンチマークである。
論文参考訳（メタデータ） (2025-04-20T07:50:44Z)
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文参考訳（メタデータ） (2025-03-13T17:59:01Z)
BEVDriver: Leveraging BEV Maps in LLMs for Robust Closed-Loop Driving [0.5735035463793009]
大規模言語モデル(LLM)には推論能力と自然言語理解がある。 CARLAにおける終端閉ループ駆動のためのLLMモデルであるBEVDriverを紹介する。 LangAutoベンチマークでは、私たちのモデルはSoTAの手法と比較して、ドライビングスコアで最大18.9%高いパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-03-05T00:27:32Z)
SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文参考訳（メタデータ） (2025-02-28T21:53:47Z)
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文参考訳（メタデータ） (2025-01-07T18:59:55Z)
AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving [106.0319745724181]
自動運転における大規模ビジョン言語モデル(DriveVLM)のための総合的信頼度ベンチマークであるAutoTrustを紹介する。シナリオを駆動する際の信頼性問題を調べるために,最も大きな視覚的質問応答データセットを構築した。私たちの評価では、DriveVLMの脆弱性を信頼性の脅威に対して明らかにしました。
論文参考訳（メタデータ） (2024-12-19T18:59:33Z)
DriveMM: All-in-One Large Multimodal Model for Autonomous Driving [63.882827922267666]
DriveMMは、画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された、大規模なマルチモーダルモデルである。我々は、6つの公開ベンチマークで評価を行い、未確認のデータセットでゼロショット転送を行い、DriveMMはすべてのタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-10T17:27:32Z)
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文参考訳（メタデータ） (2024-08-19T09:53:49Z)
Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文参考訳（メタデータ） (2024-03-28T21:18:33Z)
DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文参考訳（メタデータ） (2023-12-21T18:59:12Z)
DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文参考訳（メタデータ） (2023-12-14T18:59:05Z)
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving [37.617793990547625]
本報告では,最新のVLMであるGPT-4Vの徹底的な評価を行う。我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。 GPT-4Vは,既存の自律システムと比較して,シーン理解や因果推論において優れた性能を示した。
論文参考訳（メタデータ） (2023-11-09T12:58:37Z)
Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving [6.728693243652425]
大規模言語モデル(LLM)は、特に一般化と解釈可能性において、自動運転分野において有望であることを示している。我々は,ベクトル化された数値を事前学習したLLMにマージして,運転状況における文脈理解を改善する,ユニークなオブジェクトレベルのマルチモーダルLLMアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-10-03T11:05:14Z)
SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文参考訳（メタデータ） (2021-06-21T13:55:57Z)
One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文参考訳（メタデータ） (2021-06-21T12:28:08Z)
Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文参考訳（メタデータ） (2021-01-16T23:45:02Z)
DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention and Alertness Analysis [54.198237164152786]
視覚は運転監視システム(DMS)の最も豊かで費用対効果の高い技術である十分に大規模で包括的なデータセットの欠如は、DMS開発の進展のボトルネックとなっている。本稿では,実運転シナリオとシミュレーション運転シナリオを含む広範囲なデータセットであるドライバモニタリングデータセット(DMD)を紹介する。
論文参考訳（メタデータ） (2020-08-27T12:33:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。