論文の概要: Multi-Objective Reinforcement Learning for Critical Scenario Generation of Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2502.15792v1
- Date: Tue, 18 Feb 2025 16:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:55.771261
- Title: Multi-Objective Reinforcement Learning for Critical Scenario Generation of Autonomous Vehicles
- Title(参考訳): 自動運転車の臨界シナリオ生成のための多目的強化学習
- Authors: Jiahui Wu, Chengjie Lu, Aitor Arrieta, Shaukat Ali,
- Abstract要約: 我々は,相互依存型安全性と機能要件を同時にテストする重要なシナリオを生成するための,新しい多目的強化学習(MORL)アプローチであるMOEQTを提案する。
我々は,高度エンド・ツー・エンドのAVコントローラと高忠実度シミュレータを用いたMOEQTの評価を行った。
評価の結果,MOEQTはベースラインよりも複数の要件に違反する重要なシナリオを特定する上で,全体的な性能が向上したことが示された。
- 参考スコア(独自算出の注目度): 11.194377118552024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous vehicles (AVs) make driving decisions without human intervention. Therefore, ensuring AVs' dependability is critical. Despite significant research and development in AV development, their dependability assurance remains a significant challenge due to the complexity and unpredictability of their operating environments. Scenario-based testing evaluates AVs under various driving scenarios, but the unlimited number of potential scenarios highlights the importance of identifying critical scenarios that can violate safety or functional requirements. Such requirements are inherently interdependent and need to be tested simultaneously. To this end, we propose MOEQT, a novel multi-objective reinforcement learning (MORL)-based approach to generate critical scenarios that simultaneously test interdependent safety and functional requirements. MOEQT adapts Envelope Q-learning as the MORL algorithm, which dynamically adapts multi-objective weights to balance the relative importance between multiple objectives. MOEQT generates critical scenarios to violate multiple requirements through dynamically interacting with the AV environment, ensuring comprehensive AV testing. We evaluate MOEQT using an advanced end-to-end AV controller and a high-fidelity simulator and compare MOEQT with two baselines: a random strategy and a single-objective RL with a weighted reward function. Our evaluation results show that MOEQT achieved an overall better performance in identifying critical scenarios for violating multiple requirements than the baselines.
- Abstract(参考訳): 自動運転車(AV)は人間の介入なしに運転決定を行う。
したがって、AVの信頼性を確保することが重要である。
AV開発における大きな研究と開発にもかかわらず、その信頼性の保証は、その運用環境の複雑さと予測不可能さのために、依然として重大な課題である。
シナリオベースのテストは、さまざまな駆動シナリオの下でAVを評価するが、無制限の潜在的なシナリオは、安全性や機能要件に違反する可能性のある重要なシナリオを特定することの重要性を強調している。
このような要件は本質的に相互依存的であり、同時にテストする必要がある。
そこで本研究では,MOEQTを提案する。MOEQTは多目的強化学習(MORL)に基づく新しい手法で,相互依存型安全性と機能要件を同時にテストする重要なシナリオを生成する。
MOEQTはEnvelope Q-learningをMORLアルゴリズムとして適用し、マルチオブジェクト重み付けを動的に適用して、複数の目的間の相対的重要性のバランスをとる。
MOEQTは、AV環境と動的に相互作用し、包括的なAVテストを保証することで、複数の要件に違反する重要なシナリオを生成する。
我々は、高度エンド・ツー・エンドのAVコントローラと高忠実度シミュレータを用いてMOEQTを評価し、MOEQTをランダム戦略と重み付き報酬関数を持つ単目的RLの2つのベースラインと比較した。
評価の結果,MOEQTはベースラインよりも複数の要件に違反する重要なシナリオを特定する上で,全体的な性能が向上したことが示された。
関連論文リスト
- DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - CurricuVLM: Towards Safe Autonomous Driving via Personalized Safety-Critical Curriculum Learning with Vision-Language Models [1.6612510324510592]
CurricuVLMは、自律運転エージェントのためのパーソナライズされたカリキュラム学習を可能にする新しいフレームワークである。
我々のアプローチでは、エージェントの動作を分析し、パフォーマンスの弱点を特定し、動的に調整されたトレーニングシナリオを生成するために、視覚言語モデル(VLM)を利用する。
CurricuVLMは、通常のシナリオと安全クリティカルなシナリオの両方において、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-21T00:42:40Z) - Dual Ensembled Multiagent Q-Learning with Hypernet Regularizer [62.01554688056335]
マルチエージェント設定における過大評価は、比較的ほとんど注目されていない。
本稿では,超ネットワーク重みとバイアスに関する新しいハイパーネット正規化器を提案し,オンライングローバルQ-ネットワークの最適化を制約し,過大な推定の蓄積を防止する。
論文 参考訳(メタデータ) (2025-02-04T05:14:58Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Generating Critical Scenarios for Testing Automated Driving Systems [5.975915967339764]
AVASTRAは、自律運転システムをテストするための現実的な重要なシナリオを生成するための強化学習ベースのアプローチである。
その結果、AVASTRAは、30%から115%の衝突シナリオを発生させることで、最先端のアプローチを上回る能力を示している。
論文 参考訳(メタデータ) (2024-12-03T16:59:30Z) - AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit [59.10281630985958]
質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。
本稿では,各質問に対して最適なQA戦略を適応的に選択する動的手法を提案する。
提案手法は,複数のモジュールを持つQAシステムの適応的オーケストレーションに有効であることを示す。
論文 参考訳(メタデータ) (2024-09-20T12:28:18Z) - Stackelberg Driver Model for Continual Policy Improvement in
Scenario-Based Closed-Loop Autonomous Driving [5.765939495779461]
安全クリティカルなシナリオを合成するための効率的な手法のクラスとして、敵生成法が登場した。
Stackelberg Driver Model (SDM) を調整し、車両相互作用の階層的な性質を正確に特徴づける。
提案アルゴリズムは,特に高次元シナリオにおいて,いくつかのベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-25T15:47:07Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Evolving Testing Scenario Generation Method and Intelligence Evaluation
Framework for Automated Vehicles [12.670180834651912]
本稿では、深部強化学習(DRL)を利用して、自動車両(AV)のテストおよびインテリジェンス評価のための人間のようなBVを作成する進化シナリオ生成手法を提案する。
その結果,提案シナリオは,他のベースラインシナリオと比較して高い複雑性を示し,自然主義駆動データと85%以上類似していることがわかった。
論文 参考訳(メタデータ) (2023-06-12T14:26:12Z) - BOtied: Multi-objective Bayesian optimization with tied multivariate ranks [33.414682601242006]
本稿では,非支配解と結合累積分布関数の極端量子化との自然な関係を示す。
このリンクにより、我々はPareto対応CDFインジケータと関連する取得関数BOtiedを提案する。
種々の合成および実世界の問題に対する実験により,BOtied は最先端MOBO 取得関数より優れていることが示された。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。