論文の概要: Multi-Objective Reinforcement Learning for Critical Scenario Generation of Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2502.15792v1
- Date: Tue, 18 Feb 2025 16:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:43.757371
- Title: Multi-Objective Reinforcement Learning for Critical Scenario Generation of Autonomous Vehicles
- Title(参考訳): 自動運転車の臨界シナリオ生成のための多目的強化学習
- Authors: Jiahui Wu, Chengjie Lu, Aitor Arrieta, Shaukat Ali,
- Abstract要約: 我々は,相互依存型安全性と機能要件を同時にテストする重要なシナリオを生成するための,新しい多目的強化学習(MORL)アプローチであるMOEQTを提案する。
我々は,高度エンド・ツー・エンドのAVコントローラと高忠実度シミュレータを用いたMOEQTの評価を行った。
評価の結果,MOEQTはベースラインよりも複数の要件に違反する重要なシナリオを特定する上で,全体的な性能が向上したことが示された。
- 参考スコア(独自算出の注目度): 11.194377118552024
- License:
- Abstract: Autonomous vehicles (AVs) make driving decisions without human intervention. Therefore, ensuring AVs' dependability is critical. Despite significant research and development in AV development, their dependability assurance remains a significant challenge due to the complexity and unpredictability of their operating environments. Scenario-based testing evaluates AVs under various driving scenarios, but the unlimited number of potential scenarios highlights the importance of identifying critical scenarios that can violate safety or functional requirements. Such requirements are inherently interdependent and need to be tested simultaneously. To this end, we propose MOEQT, a novel multi-objective reinforcement learning (MORL)-based approach to generate critical scenarios that simultaneously test interdependent safety and functional requirements. MOEQT adapts Envelope Q-learning as the MORL algorithm, which dynamically adapts multi-objective weights to balance the relative importance between multiple objectives. MOEQT generates critical scenarios to violate multiple requirements through dynamically interacting with the AV environment, ensuring comprehensive AV testing. We evaluate MOEQT using an advanced end-to-end AV controller and a high-fidelity simulator and compare MOEQT with two baselines: a random strategy and a single-objective RL with a weighted reward function. Our evaluation results show that MOEQT achieved an overall better performance in identifying critical scenarios for violating multiple requirements than the baselines.
- Abstract(参考訳): 自動運転車(AV)は人間の介入なしに運転決定を行う。
したがって、AVの信頼性を確保することが重要である。
AV開発における大きな研究と開発にもかかわらず、その信頼性の保証は、その運用環境の複雑さと予測不可能さのために、依然として重大な課題である。
シナリオベースのテストは、さまざまな駆動シナリオの下でAVを評価するが、無制限の潜在的なシナリオは、安全性や機能要件に違反する可能性のある重要なシナリオを特定することの重要性を強調している。
このような要件は本質的に相互依存的であり、同時にテストする必要がある。
そこで本研究では,MOEQTを提案する。MOEQTは多目的強化学習(MORL)に基づく新しい手法で,相互依存型安全性と機能要件を同時にテストする重要なシナリオを生成する。
MOEQTはEnvelope Q-learningをMORLアルゴリズムとして適用し、マルチオブジェクト重み付けを動的に適用して、複数の目的間の相対的重要性のバランスをとる。
MOEQTは、AV環境と動的に相互作用し、包括的なAVテストを保証することで、複数の要件に違反する重要なシナリオを生成する。
我々は、高度エンド・ツー・エンドのAVコントローラと高忠実度シミュレータを用いてMOEQTを評価し、MOEQTをランダム戦略と重み付き報酬関数を持つ単目的RLの2つのベースラインと比較した。
評価の結果,MOEQTはベースラインよりも複数の要件に違反する重要なシナリオを特定する上で,全体的な性能が向上したことが示された。
関連論文リスト
- Dual Ensembled Multiagent Q-Learning with Hypernet Regularizer [62.01554688056335]
マルチエージェント設定における過大評価は、比較的ほとんど注目されていない。
本稿では,超ネットワーク重みとバイアスに関する新しいハイパーネット正規化器を提案し,オンライングローバルQ-ネットワークの最適化を制約し,過大な推定の蓄積を防止する。
論文 参考訳(メタデータ) (2025-02-04T05:14:58Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Generating Critical Scenarios for Testing Automated Driving Systems [5.975915967339764]
AVASTRAは、自律運転システムをテストするための現実的な重要なシナリオを生成するための強化学習ベースのアプローチである。
その結果、AVASTRAは、30%から115%の衝突シナリオを発生させることで、最先端のアプローチを上回る能力を示している。
論文 参考訳(メタデータ) (2024-12-03T16:59:30Z) - Foundation Models for Rapid Autonomy Validation [4.417336418010182]
重要な課題は、自動運転車が遭遇するあらゆる種類の運転シナリオでテストする必要があることだ。
本研究では,運転シナリオを再構築するための行動基礎モデル,特にマスク付きオートエンコーダ(MAE)の使用を提案する。
論文 参考訳(メタデータ) (2024-10-22T15:32:43Z) - AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit [59.10281630985958]
質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。
本稿では,各質問に対して最適なQA戦略を適応的に選択する動的手法を提案する。
提案手法は,複数のモジュールを持つQAシステムの適応的オーケストレーションに有効であることを示す。
論文 参考訳(メタデータ) (2024-09-20T12:28:18Z) - Stackelberg Driver Model for Continual Policy Improvement in
Scenario-Based Closed-Loop Autonomous Driving [5.765939495779461]
安全クリティカルなシナリオを合成するための効率的な手法のクラスとして、敵生成法が登場した。
Stackelberg Driver Model (SDM) を調整し、車両相互作用の階層的な性質を正確に特徴づける。
提案アルゴリズムは,特に高次元シナリオにおいて,いくつかのベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-25T15:47:07Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Evolving Testing Scenario Generation Method and Intelligence Evaluation
Framework for Automated Vehicles [12.670180834651912]
本稿では、深部強化学習(DRL)を利用して、自動車両(AV)のテストおよびインテリジェンス評価のための人間のようなBVを作成する進化シナリオ生成手法を提案する。
その結果,提案シナリオは,他のベースラインシナリオと比較して高い複雑性を示し,自然主義駆動データと85%以上類似していることがわかった。
論文 参考訳(メタデータ) (2023-06-12T14:26:12Z) - Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs [78.31625291513589]
自己整合性は、解が複数のサブステップに対する解からなるタスクにおいて、有効な多段階推論の重要な基準であると主張する。
仮説的整合性と構成的整合性という,多段階推論において特に重要である2種類の自己整合性を提案する。
GPT-3/4モデルの複数変種は,多種多様なタスクにおける両タイプの整合性に不整合性を示すことを示した。
論文 参考訳(メタデータ) (2023-05-23T17:25:59Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。