論文の概要: Reality Bites: Assessing the Realism of Driving Scenarios with Large Language Models
- arxiv url: http://arxiv.org/abs/2403.09906v1
- Date: Thu, 14 Mar 2024 22:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 20:56:05.888263
- Title: Reality Bites: Assessing the Realism of Driving Scenarios with Large Language Models
- Title(参考訳): Reality Bites: 大規模言語モデルでシナリオを駆動する現実性を評価する
- Authors: Jiahui Wu, Chengjie Lu, Aitor Arrieta, Tao Yue, Shaukat Ali,
- Abstract要約: 大規模言語モデル(LLM)は、テキスト生成、要約、分類といったタスクにおいて顕著な可能性を示している。
我々は,LLMがタスクの実行に有効で堅牢であるかどうかを実証評価した。
- 参考スコア(独自算出の注目度): 12.457139843775673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are demonstrating outstanding potential for tasks such as text generation, summarization, and classification. Given that such models are trained on a humongous amount of online knowledge, we hypothesize that LLMs can assess whether driving scenarios generated by autonomous driving testing techniques are realistic, i.e., being aligned with real-world driving conditions. To test this hypothesis, we conducted an empirical evaluation to assess whether LLMs are effective and robust in performing the task. This reality check is an important step towards devising LLM-based autonomous driving testing techniques. For our empirical evaluation, we selected 64 realistic scenarios from \deepscenario--an open driving scenario dataset. Next, by introducing minor changes to them, we created 512 additional realistic scenarios, to form an overall dataset of 576 scenarios. With this dataset, we evaluated three LLMs (\gpt, \llama, and \mistral) to assess their robustness in assessing the realism of driving scenarios. Our results show that: (1) Overall, \gpt achieved the highest robustness compared to \llama and \mistral, consistently throughout almost all scenarios, roads, and weather conditions; (2) \mistral performed the worst consistently; (3) \llama achieved good results under certain conditions; and (4) roads and weather conditions do influence the robustness of the LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト生成、要約、分類といったタスクにおいて顕著な可能性を示している。
このようなモデルが大量のオンライン知識に基づいて訓練されていることを考慮し、LLMが自律運転テスト技術によって生成された運転シナリオが現実的であるかどうか、すなわち現実世界の運転条件に適合しているかどうかを評価することができると仮定する。
この仮説を検証するために,LLMがタスクの実行に有効で堅牢であるかどうかを実証評価した。
この現実チェックは、LLMベースの自動運転テスト技術を開発するための重要なステップである。
経験的評価では,オープンな運転シナリオデータセットである‘deepscenario’から,64の現実シナリオを選択しました。
次に、小さな変更を導入することで、576のシナリオ全体のデータセットを形成するために、さらに512の現実的なシナリオを作成しました。
このデータセットを用いて,運転シナリオの現実性を評価する上でのロバスト性を評価するために,3つのLCM(\gpt, \llama, \mistral)を評価した。
以上の結果から,(1) ほぼすべてのシナリオ, 道路, 気象条件において, \gpt は, ほぼすべてのシナリオ, 道路, 気象条件において, 最も高いロバスト性を達成し, (2) カラマは, 一定の条件下で, および (4) 道路, 気象条件がLLMのロバスト性に影響を及ぼすことが示唆された。
関連論文リスト
- Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
本研究は,自律運転分野におけるMLLM(Multimodal Large Language Models)の適用に焦点を当てた。
我々は、固定車載カメラの観点から、様々なMLLMの運転能力を世界モデルとして評価する。
以上の結果から,最先端MLLMの現在の能力に重要なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Controllable Safety-Critical Closed-loop Traffic Simulation via Guided
Diffusion [100.4988219600854]
誘導拡散モデルに根ざした新しいクローズドループシミュレーションフレームワークを提案する。
提案手法は, 現実の条件を密にエミュレートする現実的なロングテールシナリオの生成と, 制御性の向上という, 二つの異なる利点をもたらす。
我々はNuScenesデータセットを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Marginalized Importance Sampling for Off-Environment Policy Evaluation [13.824507564510503]
強化学習法(Reinforcement Learning, RL)は、通常、サンプル非効率であり、実世界のロボットでRLポリティエの訓練と展開が困難である。
本稿では,エージェントポリシーを実環境にデプロイする前に,エージェントポリシーの現実的性能を評価するための新しいアプローチを提案する。
提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,任意のポリシーの性能評価を行う。
論文 参考訳(メタデータ) (2023-09-04T20:52:04Z) - Realistic Safety-critical Scenarios Search for Autonomous Driving System
via Behavior Tree [8.286351881735191]
本研究では,行動木に基づくテストフレームワークであるMatrix-Fuzzerを提案し,現実的な安全クリティカルなテストシナリオを自動的に生成する。
提案手法では, 安全クリティカルシナリオのタイプが最も多いが, ベースラインアルゴリズムと比較して, 全体の30%程度しか生成できない。
論文 参考訳(メタデータ) (2023-05-11T06:53:03Z) - 4Seasons: Benchmarking Visual SLAM and Long-Term Localization for
Autonomous Driving in Challenging Conditions [54.59279160621111]
大規模4Seasonsデータセットに基づく課題条件下での自律運転のための新しい視覚的SLAMと長期局所化ベンチマークを提案する。
提案したベンチマークでは,季節変化や天候,照明条件の変動による劇的な外見の変化が報告されている。
本稿では,視覚計測,大域的位置認識,および地図に基づく視覚的位置決め性能を共同評価するための統合ベンチマークを提案する。
論文 参考訳(メタデータ) (2022-12-31T13:52:36Z) - Carl-Lead: Lidar-based End-to-End Autonomous Driving with Contrastive
Deep Reinforcement Learning [10.040113551761792]
我々は、ライダーに基づくエンドツーエンドの運転ポリシーのトレーニングに、深層強化学習(DRL)を使用します。
本研究では、DRLを用いて、不完全な部分観察を自然に考慮するライダーベースのエンドツーエンド駆動ポリシーを訓練する。
提案手法は,最新技術(SOTA)によるエンド・ツー・エンド駆動ネットワークよりも高い成功率を達成する。
論文 参考訳(メタデータ) (2021-09-17T11:24:10Z) - Generating and Characterizing Scenarios for Safety Testing of Autonomous
Vehicles [86.9067793493874]
最先端運転シミュレータを用いて,テストシナリオを特徴付け,生成するための効率的なメカニズムを提案する。
次世代シミュレーション(NGSIM)プロジェクトにおける実運転データの特徴付けに本手法を用いる。
事故回避の複雑さに基づいてメトリクスを定義してシナリオをランク付けし、事故発生の可能性を最小限に抑えるための洞察を提供します。
論文 参考訳(メタデータ) (2021-03-12T17:00:23Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Testing the Safety of Self-driving Vehicles by Simulating Perception and
Prediction [88.0416857308144]
センサシミュレーションは高価であり,領域ギャップが大きいため,センサシミュレーションに代わる方法を提案する。
我々は、自動運転車の知覚と予測システムの出力を直接シミュレートし、現実的な動き計画テストを可能にする。
論文 参考訳(メタデータ) (2020-08-13T17:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。