論文の概要: Solving Reach-Avoid-Stay Problems Using Deep Deterministic Policy Gradients
- arxiv url: http://arxiv.org/abs/2410.02898v2
- Date: Mon, 7 Oct 2024 19:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 05:05:01.694460
- Title: Solving Reach-Avoid-Stay Problems Using Deep Deterministic Policy Gradients
- Title(参考訳): Deep Deterministic Policy Gradientsを用いたリーチ回避問題の解法
- Authors: Gabriel Chenevert, Jingqi Li, Achyuta kannan, Sangjae Bae, Donggun Lee,
- Abstract要約: Reach-Avoid-Stay (RAS) の最適制御により、ロボットやエアタクシーなどのシステムが目標に到達し、障害物を避け、目標の近くに留まることができる。
RASの現在の手法は、複雑な動的環境の扱いと高次元システムへのスケーリングにしばしば苦労する。
RLに基づくリーチビリティー法を拡張してRAS問題を解決するための2段階のDeep Deterministic Policy gradient (DDPG)法を提案する。
- 参考スコア(独自算出の注目度): 3.4849272655643326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reach-Avoid-Stay (RAS) optimal control enables systems such as robots and air taxis to reach their targets, avoid obstacles, and stay near the target. However, current methods for RAS often struggle with handling complex, dynamic environments and scaling to high-dimensional systems. While reinforcement learning (RL)-based reachability analysis addresses these challenges, it has yet to tackle the RAS problem. In this paper, we propose a two-step deep deterministic policy gradient (DDPG) method to extend RL-based reachability method to solve RAS problems. First, we train a function that characterizes the maximal robust control invariant set within the target set, where the system can safely stay, along with its corresponding policy. Second, we train a function that defines the set of states capable of safely reaching the robust control invariant set, along with its corresponding policy. We prove that this method results in the maximal robust RAS set in the absence of training errors and demonstrate that it enables RAS in complex environments, scales to high-dimensional systems, and achieves higher success rates for the RAS task compared to previous methods, validated through one simulation and two high-dimensional experiments.
- Abstract(参考訳): Reach-Avoid-Stay (RAS) の最適制御により、ロボットやエアタクシーなどのシステムが目標に到達し、障害物を避け、目標の近くに留まることができる。
しかしながら、RASの現在の手法は複雑な動的環境の処理と高次元システムへのスケーリングにしばしば苦労する。
強化学習(RL)に基づく到達可能性分析はこれらの課題に対処するが、RAS問題にはまだ取り組んでいない。
本稿では, RLに基づくリーチビリティ法を拡張してRAS問題を解決するために, 2段階のDeep Deterministic Policy gradient (DDPG)法を提案する。
まず、ターゲットセット内の最大ロバスト制御不変量を特徴付ける関数を訓練する。
第2に、ロバスト制御不変量に安全に到達可能な状態の集合と対応するポリシーを定義する関数を訓練する。
本手法は, トレーニングエラーがない場合に設定した最大ロバストRASを実現し, 複雑な環境下でRASを実現し, 高次元システムにスケールし, 従来の手法と比較してRASタスクの成功率を高めることを実証し, シミュレーションと2つの高次元実験により検証した。
関連論文リスト
- Domain Adaptive Safety Filters via Deep Operator Learning [5.62479170374811]
本稿では,環境パラメータから対応するCBFへのマッピングを学習する自己教師型深層演算子学習フレームワークを提案する。
動的障害物を含むナビゲーションタスクの数値実験により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-18T15:10:55Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set [6.94348936509225]
本稿では, RMPCとRL RLの併用による非線形システムの安全フィルタの合成について述べる。
本稿では,ロバストリーチ問題に対する政策アプローチを提案し,その複雑性を確立する。
論文 参考訳(メタデータ) (2023-11-12T08:11:28Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z) - Derivative-Free Policy Optimization for Risk-Sensitive and Robust
Control Design: Implicit Regularization and Sample Complexity [15.940861063732608]
直接政策検索は、現代の強化学習(RL)の作業馬の1つとして役立ちます。
線形リスク感知型ロバストコントローラにおける政策ロバスト性(PG)手法の収束理論について検討する。
私たちのアルゴリズムの特徴の1つは、学習フェーズ中に特定のレベルの複雑さ/リスク感受性コントローラが保持されるということです。
論文 参考訳(メタデータ) (2021-01-04T16:00:46Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。