論文の概要: Decision-Making under On-Ramp merge Scenarios by Distributional Soft
Actor-Critic Algorithm
- arxiv url: http://arxiv.org/abs/2103.04535v1
- Date: Mon, 8 Mar 2021 03:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:12:54.250366
- Title: Decision-Making under On-Ramp merge Scenarios by Distributional Soft
Actor-Critic Algorithm
- Title(参考訳): 分布型ソフトアクタ-クリティックアルゴリズムによるオンランプマージシナリオによる意思決定
- Authors: Yiting Kong, Yang Guan, Jingliang Duan, Shengbo Eben Li, Qi Sun,
Bingbing Nie
- Abstract要約: SDSAC(Shield Distributional Soft Actor-critic)と呼ばれるオフライントレーニングとオンライン修正の枠組みに基づくRLベースのエンドツーエンド意思決定方法を提案する。
その結果,SDSACはベースラインアルゴリズムよりも安全性が高く,運転効率も高いことがわかった。
- 参考スコア(独自算出の注目度): 10.258474373022075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Merging into the highway from the on-ramp is an essential scenario for
automated driving. The decision-making under the scenario needs to balance the
safety and efficiency performance to optimize a long-term objective, which is
challenging due to the dynamic, stochastic, and adversarial characteristics.
The Rule-based methods often lead to conservative driving on this task while
the learning-based methods have difficulties meeting the safety requirements.
In this paper, we propose an RL-based end-to-end decision-making method under a
framework of offline training and online correction, called the Shielded
Distributional Soft Actor-critic (SDSAC). The SDSAC adopts the policy
evaluation with safety consideration and a safety shield parameterized with the
barrier function in its offline training and online correction, respectively.
These two measures support each other for better safety while not damaging the
efficiency performance severely. We verify the SDSAC on an on-ramp merge
scenario in simulation. The results show that the SDSAC has the best safety
performance compared to baseline algorithms and achieves efficient driving
simultaneously.
- Abstract(参考訳): オンランプから高速道路にマージすることは、自動運転にとって不可欠なシナリオです。
シナリオの下での意思決定は、動的、確率的、および敵対的な特性のために困難である長期的な目標を最適化するために、安全性と効率性能のバランスをとる必要があります。
ルールベースの手法は、しばしばこのタスクを保守的な運転に導くが、学習ベースの手法は安全要件を満たすのが困難である。
本稿では、オフライントレーニングとオンライン修正の枠組みに基づくRLに基づくエンドツーエンド意思決定手法であるShield Distributional Soft Actor-critic (SDSAC)を提案する。
SDSACは、安全を考慮した政策評価と、オフライントレーニングにおけるバリア機能とオンライン修正をパラメータ化した安全シールドをそれぞれ採用している。
この2つの手段は、効率性能を著しく損なうことなく、お互いの安全を向上する。
シミュレーションにおいて,SDSACをオンランプマージシナリオで検証する。
その結果,SDSACはベースラインアルゴリズムよりも安全性能が優れ,同時に効率的な運転を実現することがわかった。
関連論文リスト
- Enhanced Safety in Autonomous Driving: Integrating Latent State Diffusion Model for End-to-End Navigation [5.928213664340974]
本研究は自動運転の制御最適化問題における安全性問題に対処する。
本稿では,条件付きバリュー・アット・リスクに基づくソフトアクター批判を利用して,ポリシー最適化のための新しいモデルベースアプローチを提案する。
本手法では, 安全探索を誘導する最悪のアクターを導入し, 予測不可能なシナリオにおいても, 安全要件の厳密な遵守を確保する。
論文 参考訳(メタデータ) (2024-07-08T18:32:40Z) - Towards Safe Load Balancing based on Control Barrier Functions and Deep
Reinforcement Learning [0.691367883100748]
我々は,SD-WAN(Software Defined-Wide Area Network)のための安全な学習に基づくロードバランシングアルゴリズムを提案する。
制御バリア関数(CBF)を併用した深層強化学習(DRL)によって強化される。
提案手法は,リンク容量制約に関する安全性要件を尊重しつつ,エンドツーエンドの遅延の観点から,ほぼ最適品質(QoS)を提供することを示す。
論文 参考訳(メタデータ) (2024-01-10T19:43:12Z) - CAT: Closed-loop Adversarial Training for Safe End-to-End Driving [54.60865656161679]
Adversarial Training (CAT) は、自動運転車における安全なエンドツーエンド運転のためのフレームワークである。
Catは、安全クリティカルなシナリオでエージェントを訓練することで、運転エージェントの安全性を継続的に改善することを目的としている。
猫は、訓練中のエージェントに対抗する敵シナリオを効果的に生成できる。
論文 参考訳(メタデータ) (2023-10-19T02:49:31Z) - Safe Reinforcement Learning with Dual Robustness [10.455148541147796]
強化学習(RL)エージェントは敵の障害に対して脆弱である。
安全なRLとロバストなRLを統合するための体系的フレームワークを提案する。
また,デュアル・ロバスト・アクター・クリティック(DRAC)と呼ばれる実装のためのディープRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-09-13T09:34:21Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Model-Based Safe Reinforcement Learning with Time-Varying State and
Control Constraints: An Application to Intelligent Vehicles [13.40143623056186]
本稿では、時間変化状態と制御制約を持つ非線形システムの最適制御のための安全なRLアルゴリズムを提案する。
多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。
提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-12-18T10:45:31Z) - Decision-making for Autonomous Vehicles on Highway: Deep Reinforcement
Learning with Continuous Action Horizon [14.059728921828938]
本稿では,高速道路における連続水平決定問題に対処するために,深部強化学習(DRL)手法を用いる。
エゴ自動車両の走行目標は、衝突することなく効率的でスムーズなポリシーを実行することである。
PPO-DRLに基づく意思決定戦略は、最適性、学習効率、適応性など、複数の観点から推定される。
論文 参考訳(メタデータ) (2020-08-26T22:49:27Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。