論文の概要: Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2407.17211v1
- Date: Wed, 24 Jul 2024 12:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:04:14.527699
- Title: Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles
- Title(参考訳): 連結自動運転車の理論的知識と技能を駆動する大規模言語モデルのテスト
- Authors: Zuoyin Tang, Jianhua He, Dashuai Pei, Kezhong Liu, Tao Gao,
- Abstract要約: 大規模言語モデル(LLM)は、優れた一般化と説明機能を備えたコーナーケースを扱う大きな可能性を持っている。
我々は,複数のプロプライエタリ LLM モデルとオープンソース LLM モデルのための駆動理論テストの設計と実行を行う。
実験の結果,モデルGPT-4はドメイン知識を改良してテストに合格する一方,GPT-3.5を含む他のLLMモデルはテストに失敗することがわかった。
- 参考スコア(独自算出の注目度): 4.582268246644935
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Handling long tail corner cases is a major challenge faced by autonomous vehicles (AVs). While large language models (LLMs) hold great potentials to handle the corner cases with excellent generalization and explanation capabilities and received increasing research interest on application to autonomous driving, there are still technical barriers to be tackled, such as strict model performance and huge computing resource requirements of LLMs. In this paper, we investigate a new approach of applying remote or edge LLMs to support autonomous driving. A key issue for such LLM assisted driving system is the assessment of LLMs on their understanding of driving theory and skills, ensuring they are qualified to undertake safety critical driving assistance tasks for CAVs. We design and run driving theory tests for several proprietary LLM models (OpenAI GPT models, Baidu Ernie and Ali QWen) and open-source LLM models (Tsinghua MiniCPM-2B and MiniCPM-Llama3-V2.5) with more than 500 multiple-choices theory test questions. Model accuracy, cost and processing latency are measured from the experiments. Experiment results show that while model GPT-4 passes the test with improved domain knowledge and Ernie has an accuracy of 85% (just below the 86% passing threshold), other LLM models including GPT-3.5 fail the test. For the test questions with images, the multimodal model GPT4-o has an excellent accuracy result of 96%, and the MiniCPM-Llama3-V2.5 achieves an accuracy of 76%. While GPT-4 holds stronger potential for CAV driving assistance applications, the cost of using model GPT4 is much higher, almost 50 times of that of using GPT3.5. The results can help make decision on the use of the existing LLMs for CAV applications and balancing on the model performance and cost.
- Abstract(参考訳): ロングテールコーナーのケースを扱うことは、自動運転車(AV)が直面する大きな課題である。
大規模言語モデル(LLM)は、高度な一般化と説明能力を持つコーナーケースを扱う大きな可能性を秘めており、自律運転への適用に対する研究の関心が高まりつつあるが、厳密なモデル性能やLLMの膨大な計算資源要求など、取り組まなければならない技術的障壁は依然として残っている。
本稿では,遠隔走行を支援するために遠隔走行型LLMとエッジ式LLMを併用する新しい手法について検討する。
このような運転支援システムの鍵となる課題は、運転理論と技能の理解に基づくLCMの評価であり、CAVの安全クリティカルな運転支援タスクを遂行する資格を確保することである。
我々は,500以上の多重選択理論テスト問題を伴う,いくつかの独自LLMモデル(OpenAI GPTモデル,Baidu Ernie,Ali QWen)およびオープンソースLLMモデル(Tsinghua MiniCPM-2B,MiniCPM-Llama3-V2.5)の駆動理論テストの設計と実行を行った。
実験からモデル精度,コスト,処理遅延を測定した。
実験結果から、モデルGPT-4はドメイン知識を改良してテストに合格し、アーニーは精度が85%(パスしきい値の86%以下)であるのに対し、GPT-3.5を含む他のLCMモデルはテストに失敗することがわかった。
画像を用いたテストでは,マルチモーダルモデル GPT4-o の精度は 96% であり,MiniCPM-Llama3-V2.5 の精度は 76% である。
GPT-4 は CAV 運転支援システムの可能性が強いが、モデル GPT4 のコストは GPT3.5 の約50倍である。
その結果、既存のLCMをCAVアプリケーションに使用することや、モデルの性能とコストのバランスを決めるのに役立ちます。
関連論文リスト
- Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Fine-Tuning and Prompt Engineering for Large Language Models-based Code Review Automation [4.941630596191807]
コードレビュー自動化にLLM(Large Language Models)を利用する場合、ファインチューニングとプロンプトが一般的なアプローチである。
LLMベースのコードレビュー自動化では、モデルファインチューニングと推論技術(ゼロショット学習、少数ショット学習、ペルソナ)を使用します。
その結果、ゼロショット学習によるGPT-3.5は、Guoらのアプローチよりも73.17%-74.23%高いEMが得られることがわかった。
論文 参考訳(メタデータ) (2024-02-01T03:10:26Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [67.843551583229]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
BDD-Xデータセットで行った評価では,DriveGPT4の質的,定量的な性能が向上した。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - An LSTM-Based Autonomous Driving Model Using Waymo Open Dataset [7.151393153761375]
本稿では,短期記憶モデル(LSTM)を用いた自律走行モデルの動作を模倣する手法を提案する。
実験結果から,本モデルは動作予測においていくつかのモデルより優れることがわかった。
論文 参考訳(メタデータ) (2020-02-14T05:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。