論文の概要: A Tool for Benchmarking Large Language Models' Robustness in Assessing the Realism of Driving Scenarios
- arxiv url: http://arxiv.org/abs/2511.04267v1
- Date: Thu, 06 Nov 2025 11:02:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.397009
- Title: A Tool for Benchmarking Large Language Models' Robustness in Assessing the Realism of Driving Scenarios
- Title(参考訳): 運転シナリオの現実性を評価するための大規模言語モデルのロバスト性評価ツール
- Authors: Jiahui Wu, Chengjie Lu, Aitor Arrieta, Shaukat Ali,
- Abstract要約: DriveRLRは、駆動シナリオの現実性を評価する上で、LLM(Large Language Models)の堅牢性を評価するためのベンチマークツールである。
我々は、GPT-5、Llama 4 Maverick、Mistral Small 3.2の3つの最先端LCMを用いて、DeepScenarioデータセット上でDriveRLRを検証する。
- 参考スコア(独自算出の注目度): 10.61282920988278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, autonomous driving systems have made significant progress, yet ensuring their safety remains a key challenge. To this end, scenario-based testing offers a practical solution, and simulation-based methods have gained traction due to the high cost and risk of real-world testing. However, evaluating the realism of simulated scenarios remains difficult, creating demand for effective assessment methods. Recent advances show that Large Language Models (LLMs) possess strong reasoning and generalization capabilities, suggesting their potential in assessing scenario realism through scenario-related textual prompts. Motivated by this, we propose DriveRLR, a benchmark tool to assess the robustness of LLMs in evaluating the realism of driving scenarios. DriveRLR generates mutated scenario variants, constructs prompts, which are then used to assess a given LLM's ability and robustness in determining the realism of driving scenarios. We validate DriveRLR on the DeepScenario dataset using three state-of-the-art LLMs: GPT-5, Llama 4 Maverick, and Mistral Small 3.2. Results show that DriveRLR effectively reveals differences in the robustness of various LLMs, demonstrating its effectiveness and practical value in scenario realism assessment. Beyond LLM robustness evaluation, DriveRLR can serve as a practical component in applications such as an objective function to guide scenario generation, supporting simulation-based ADS testing workflows.
- Abstract(参考訳): 近年、自動運転システムは大きな進歩を遂げているが、安全確保は依然として重要な課題である。
この目的のために、シナリオベースのテストは実用的なソリューションを提供し、シミュレーションベースの手法は、実際のテストのコストとリスクが高いため、牽引力を高めている。
しかし,シミュレーションシナリオの現実性評価は依然として困難であり,効果的な評価手法の需要が生じる。
近年の進歩は,Large Language Models (LLM) が強い推論と一般化能力を持ち,シナリオ関連テキストプロンプトを通じてシナリオリアリズムを評価する可能性を示している。
そこで本研究では,駆動シナリオの現実性を評価する上で,LCMの堅牢性を評価するためのベンチマークツールであるDriveRLRを提案する。
DriveRLRは、変更シナリオの変種を生成し、プロンプトを生成して、実行シナリオの現実性を決定する上で、与えられたLLMの能力と堅牢性を評価する。
我々は、GPT-5、Llama 4 Maverick、Mistral Small 3.2の3つの最先端LCMを用いて、DeepScenarioデータセット上でDriveRLRを検証する。
その結果,DriveRLRは様々なLCMのロバスト性の違いを効果的に明らかにし,シナリオリアリズム評価の有効性と実用性を示した。
LLMの堅牢性評価以外にも、DriveRLRはシナリオ生成をガイドする客観的関数やシミュレーションベースのADSテストワークフローをサポートするアプリケーションにおいて、実用的なコンポーネントとして機能する。
関連論文リスト
- Safety-Critical Traffic Simulation with Guided Latent Diffusion Model [8.011306318131458]
安全クリティカルな交通シミュレーションは、自動運転システムを評価する上で重要な役割を果たす。
本稿では,物理的に現実的で逆向きなシナリオを生成可能なガイド付き潜時拡散モデル(LDM)を提案する。
我々の研究は、現実的な安全クリティカルなシナリオシミュレーションのための効果的なツールを提供し、自律運転システムのより堅牢な評価の道を開く。
論文 参考訳(メタデータ) (2025-05-01T13:33:34Z) - From Words to Collisions: LLM-Guided Evaluation and Adversarial Generation of Safety-Critical Driving Scenarios [6.681744368557208]
大規模言語モデル(LLM)と構造化シナリオ解析と迅速なエンジニアリングは、安全クリティカルな運転シナリオを生成するために使用される。
2次元シミュレーションフレームワークと複数の事前学習LDMを用いて,本手法の有効性を検証した。
ドメインインフォームドプロンプト技術を備えたLLMは、安全クリティカルな運転シナリオを効果的に評価し、生成することができると結論付けている。
論文 参考訳(メタデータ) (2025-02-04T09:19:13Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。
本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。
我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文 参考訳(メタデータ) (2024-11-25T16:38:17Z) - Multimodal Large Language Model Driven Scenario Testing for Autonomous Vehicles [6.836108615628114]
我々はシミュレーション環境で現実的で多様なシナリオを生成するフレームワークであるOmniTesterを提案する。
実験では,3種類の難解かつ複雑なシナリオを生成する上で,我々のアプローチの可制御性とリアリズムを実証した。
論文 参考訳(メタデータ) (2024-09-10T12:12:09Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Reality Bites: Assessing the Realism of Driving Scenarios with Large Language Models [12.457139843775673]
大規模言語モデル(LLM)は、テキスト生成、要約、分類といったタスクにおいて顕著な可能性を示している。
我々は,LLMがタスクの実行に有効で堅牢であるかどうかを実証評価した。
論文 参考訳(メタデータ) (2024-03-14T22:38:20Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。