論文の概要: Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2407.17211v1
- Date: Wed, 24 Jul 2024 12:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:04:14.527699
- Title: Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles
- Title(参考訳): 連結自動運転車の理論的知識と技能を駆動する大規模言語モデルのテスト
- Authors: Zuoyin Tang, Jianhua He, Dashuai Pei, Kezhong Liu, Tao Gao,
- Abstract要約: 大規模言語モデル(LLM)は、優れた一般化と説明機能を備えたコーナーケースを扱う大きな可能性を持っている。
我々は,複数のプロプライエタリ LLM モデルとオープンソース LLM モデルのための駆動理論テストの設計と実行を行う。
実験の結果,モデルGPT-4はドメイン知識を改良してテストに合格する一方,GPT-3.5を含む他のLLMモデルはテストに失敗することがわかった。
- 参考スコア(独自算出の注目度): 4.582268246644935
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Handling long tail corner cases is a major challenge faced by autonomous vehicles (AVs). While large language models (LLMs) hold great potentials to handle the corner cases with excellent generalization and explanation capabilities and received increasing research interest on application to autonomous driving, there are still technical barriers to be tackled, such as strict model performance and huge computing resource requirements of LLMs. In this paper, we investigate a new approach of applying remote or edge LLMs to support autonomous driving. A key issue for such LLM assisted driving system is the assessment of LLMs on their understanding of driving theory and skills, ensuring they are qualified to undertake safety critical driving assistance tasks for CAVs. We design and run driving theory tests for several proprietary LLM models (OpenAI GPT models, Baidu Ernie and Ali QWen) and open-source LLM models (Tsinghua MiniCPM-2B and MiniCPM-Llama3-V2.5) with more than 500 multiple-choices theory test questions. Model accuracy, cost and processing latency are measured from the experiments. Experiment results show that while model GPT-4 passes the test with improved domain knowledge and Ernie has an accuracy of 85% (just below the 86% passing threshold), other LLM models including GPT-3.5 fail the test. For the test questions with images, the multimodal model GPT4-o has an excellent accuracy result of 96%, and the MiniCPM-Llama3-V2.5 achieves an accuracy of 76%. While GPT-4 holds stronger potential for CAV driving assistance applications, the cost of using model GPT4 is much higher, almost 50 times of that of using GPT3.5. The results can help make decision on the use of the existing LLMs for CAV applications and balancing on the model performance and cost.
- Abstract(参考訳): ロングテールコーナーのケースを扱うことは、自動運転車(AV)が直面する大きな課題である。
大規模言語モデル(LLM)は、高度な一般化と説明能力を持つコーナーケースを扱う大きな可能性を秘めており、自律運転への適用に対する研究の関心が高まりつつあるが、厳密なモデル性能やLLMの膨大な計算資源要求など、取り組まなければならない技術的障壁は依然として残っている。
本稿では,遠隔走行を支援するために遠隔走行型LLMとエッジ式LLMを併用する新しい手法について検討する。
このような運転支援システムの鍵となる課題は、運転理論と技能の理解に基づくLCMの評価であり、CAVの安全クリティカルな運転支援タスクを遂行する資格を確保することである。
我々は,500以上の多重選択理論テスト問題を伴う,いくつかの独自LLMモデル(OpenAI GPTモデル,Baidu Ernie,Ali QWen)およびオープンソースLLMモデル(Tsinghua MiniCPM-2B,MiniCPM-Llama3-V2.5)の駆動理論テストの設計と実行を行った。
実験からモデル精度,コスト,処理遅延を測定した。
実験結果から、モデルGPT-4はドメイン知識を改良してテストに合格し、アーニーは精度が85%(パスしきい値の86%以下)であるのに対し、GPT-3.5を含む他のLCMモデルはテストに失敗することがわかった。
画像を用いたテストでは,マルチモーダルモデル GPT4-o の精度は 96% であり,MiniCPM-Llama3-V2.5 の精度は 76% である。
GPT-4 は CAV 運転支援システムの可能性が強いが、モデル GPT4 のコストは GPT3.5 の約50倍である。
その結果、既存のLCMをCAVアプリケーションに使用することや、モデルの性能とコストのバランスを決めるのに役立ちます。
関連論文リスト
- Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - Can LLMs replace Neil deGrasse Tyson? Evaluating the Reliability of LLMs as Science Communicators [22.567933207841968]
大規模言語モデル(LLM)とAIアシスタントは、専門家とアマチュアユーザーの両方で、指数関数的な利用増加を経験している。
本研究では,現在のLLMの信頼性を科学コミュニケータとして評価することに焦点を当てる。
複雑な科学概念に埋め込まれた742 Yes/No クエリからなる新しいデータセット SCiPS-QA を導入する。
論文 参考訳(メタデータ) (2024-09-21T06:48:32Z) - On the Effectiveness of LLMs for Manual Test Verifications [1.920300814128832]
本研究の目的は,手動テストの検証にLarge Language Models (LLMs) を用いることである。
オープンソースモデル Mistral-7B と Phi-3-mini-4k は、クローズドソースモデルと同等の有効性と一貫性を示した。
AI幻覚にも懸念があり、検証は期待から著しく逸脱した。
論文 参考訳(メタデータ) (2024-09-19T02:03:04Z) - Can LVLMs Obtain a Driver's License? A Benchmark Towards Reliable AGI for Autonomous Driving [24.485164073626674]
各国から収集された100万件以上のデータを含む大規模データセットであるIDKBを提案する。
運転免許取得のプロセスと同様に、IDKBは理論から実践への運転に必要な知識のほとんど全てを包含している。
論文 参考訳(メタデータ) (2024-09-04T17:52:43Z) - Steamroller Problems: An Evaluation of LLM Reasoning Capability with Automated Theorem Prover Strategies [0.18416014644193066]
GPT4, GPT3.5 TurboおよびGoogleのGeminiモデルの性能をスチームローラー領域の問題に対して評価した。
ATP推論戦略を用いた場合のモデルの性能はワンショットの思考に匹敵することがわかった。
論文 参考訳(メタデータ) (2024-07-17T22:49:23Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。