論文の概要: Reality Bites: Assessing the Realism of Driving Scenarios with Large Language Models
- arxiv url: http://arxiv.org/abs/2403.09906v1
- Date: Thu, 14 Mar 2024 22:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 20:56:05.888263
- Title: Reality Bites: Assessing the Realism of Driving Scenarios with Large Language Models
- Title(参考訳): Reality Bites: 大規模言語モデルでシナリオを駆動する現実性を評価する
- Authors: Jiahui Wu, Chengjie Lu, Aitor Arrieta, Tao Yue, Shaukat Ali,
- Abstract要約: 大規模言語モデル(LLM)は、テキスト生成、要約、分類といったタスクにおいて顕著な可能性を示している。
我々は,LLMがタスクの実行に有効で堅牢であるかどうかを実証評価した。
- 参考スコア(独自算出の注目度): 12.457139843775673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are demonstrating outstanding potential for tasks such as text generation, summarization, and classification. Given that such models are trained on a humongous amount of online knowledge, we hypothesize that LLMs can assess whether driving scenarios generated by autonomous driving testing techniques are realistic, i.e., being aligned with real-world driving conditions. To test this hypothesis, we conducted an empirical evaluation to assess whether LLMs are effective and robust in performing the task. This reality check is an important step towards devising LLM-based autonomous driving testing techniques. For our empirical evaluation, we selected 64 realistic scenarios from \deepscenario--an open driving scenario dataset. Next, by introducing minor changes to them, we created 512 additional realistic scenarios, to form an overall dataset of 576 scenarios. With this dataset, we evaluated three LLMs (\gpt, \llama, and \mistral) to assess their robustness in assessing the realism of driving scenarios. Our results show that: (1) Overall, \gpt achieved the highest robustness compared to \llama and \mistral, consistently throughout almost all scenarios, roads, and weather conditions; (2) \mistral performed the worst consistently; (3) \llama achieved good results under certain conditions; and (4) roads and weather conditions do influence the robustness of the LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト生成、要約、分類といったタスクにおいて顕著な可能性を示している。
このようなモデルが大量のオンライン知識に基づいて訓練されていることを考慮し、LLMが自律運転テスト技術によって生成された運転シナリオが現実的であるかどうか、すなわち現実世界の運転条件に適合しているかどうかを評価することができると仮定する。
この仮説を検証するために,LLMがタスクの実行に有効で堅牢であるかどうかを実証評価した。
この現実チェックは、LLMベースの自動運転テスト技術を開発するための重要なステップである。
経験的評価では,オープンな運転シナリオデータセットである‘deepscenario’から,64の現実シナリオを選択しました。
次に、小さな変更を導入することで、576のシナリオ全体のデータセットを形成するために、さらに512の現実的なシナリオを作成しました。
このデータセットを用いて,運転シナリオの現実性を評価する上でのロバスト性を評価するために,3つのLCM(\gpt, \llama, \mistral)を評価した。
以上の結果から,(1) ほぼすべてのシナリオ, 道路, 気象条件において, \gpt は, ほぼすべてのシナリオ, 道路, 気象条件において, 最も高いロバスト性を達成し, (2) カラマは, 一定の条件下で, および (4) 道路, 気象条件がLLMのロバスト性に影響を及ぼすことが示唆された。
関連論文リスト
- Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。
本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。
我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文 参考訳(メタデータ) (2024-11-25T16:38:17Z) - DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation [54.02069690134526]
本研究では,現実的でクローズドループなシミュレーションフレームワークであるDrivingSphereを提案する。
その中核となる考え方は、4Dの世界表現を構築し、実生活と制御可能な運転シナリオを生成することである。
動的で現実的なシミュレーション環境を提供することで、DrivingSphereは自律運転アルゴリズムの包括的なテストと検証を可能にする。
論文 参考訳(メタデータ) (2024-11-18T03:00:33Z) - Multimodal Large Language Model Driven Scenario Testing for Autonomous Vehicles [6.836108615628114]
我々はシミュレーション環境で現実的で多様なシナリオを生成するフレームワークであるOmniTesterを提案する。
実験では,3種類の難解かつ複雑なシナリオを生成する上で,我々のアプローチの可制御性とリアリズムを実証した。
論文 参考訳(メタデータ) (2024-09-10T12:12:09Z) - Adversarial Safety-Critical Scenario Generation using Naturalistic Human Driving Priors [2.773055342671194]
本研究では,自然主義的人間運転先行と強化学習技術を用いた自然逆シナリオ生成ソリューションを提案する。
本研究は,本モデルにより,自然性と逆性の両方をカバーする現実的な安全クリティカルなテストシナリオを生成できることを示す。
論文 参考訳(メタデータ) (2024-08-06T13:58:56Z) - NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking [65.24988062003096]
我々は,視覚に基づく運転ポリシーをベンチマークするフレームワークであるNAVSIMを提案する。
我々のシミュレーションは非反応性であり、評価された政策と環境は互いに影響を与えない。
NAVSIMはCVPR 2024で開催され、143チームが433のエントリーを提出し、いくつかの新たな洞察を得た。
論文 参考訳(メタデータ) (2024-06-21T17:59:02Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Realistic Safety-critical Scenarios Search for Autonomous Driving System
via Behavior Tree [8.286351881735191]
本研究では,行動木に基づくテストフレームワークであるMatrix-Fuzzerを提案し,現実的な安全クリティカルなテストシナリオを自動的に生成する。
提案手法では, 安全クリティカルシナリオのタイプが最も多いが, ベースラインアルゴリズムと比較して, 全体の30%程度しか生成できない。
論文 参考訳(メタデータ) (2023-05-11T06:53:03Z) - 4Seasons: Benchmarking Visual SLAM and Long-Term Localization for
Autonomous Driving in Challenging Conditions [54.59279160621111]
大規模4Seasonsデータセットに基づく課題条件下での自律運転のための新しい視覚的SLAMと長期局所化ベンチマークを提案する。
提案したベンチマークでは,季節変化や天候,照明条件の変動による劇的な外見の変化が報告されている。
本稿では,視覚計測,大域的位置認識,および地図に基づく視覚的位置決め性能を共同評価するための統合ベンチマークを提案する。
論文 参考訳(メタデータ) (2022-12-31T13:52:36Z) - Carl-Lead: Lidar-based End-to-End Autonomous Driving with Contrastive
Deep Reinforcement Learning [10.040113551761792]
我々は、ライダーに基づくエンドツーエンドの運転ポリシーのトレーニングに、深層強化学習(DRL)を使用します。
本研究では、DRLを用いて、不完全な部分観察を自然に考慮するライダーベースのエンドツーエンド駆動ポリシーを訓練する。
提案手法は,最新技術(SOTA)によるエンド・ツー・エンド駆動ネットワークよりも高い成功率を達成する。
論文 参考訳(メタデータ) (2021-09-17T11:24:10Z) - Generating and Characterizing Scenarios for Safety Testing of Autonomous
Vehicles [86.9067793493874]
最先端運転シミュレータを用いて,テストシナリオを特徴付け,生成するための効率的なメカニズムを提案する。
次世代シミュレーション(NGSIM)プロジェクトにおける実運転データの特徴付けに本手法を用いる。
事故回避の複雑さに基づいてメトリクスを定義してシナリオをランク付けし、事故発生の可能性を最小限に抑えるための洞察を提供します。
論文 参考訳(メタデータ) (2021-03-12T17:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。