論文の概要: Specialized Deep Residual Policy Safe Reinforcement Learning-Based
Controller for Complex and Continuous State-Action Spaces
- arxiv url: http://arxiv.org/abs/2310.14788v1
- Date: Sun, 15 Oct 2023 21:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-29 15:57:30.904798
- Title: Specialized Deep Residual Policy Safe Reinforcement Learning-Based
Controller for Complex and Continuous State-Action Spaces
- Title(参考訳): 複雑連続状態空間のための特別深部残留ポリシー安全強化学習ベース制御器
- Authors: Ammar N. Abbas, Georgios C. Chasparis, and John D. Kelleher
- Abstract要約: ランダムに探索することは不可能であり、従来のコントローラーをブラックボックスモデルに置き換えることは望ましくない。
本稿では,複雑かつ連続的な状態対応空間に適応した学習手法を応用した,高度残効政策安全な強化学習を提案する。
- 参考スコア(独自算出の注目度): 1.3678669691302048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional controllers have limitations as they rely on prior knowledge
about the physics of the problem, require modeling of dynamics, and struggle to
adapt to abnormal situations. Deep reinforcement learning has the potential to
address these problems by learning optimal control policies through exploration
in an environment. For safety-critical environments, it is impractical to
explore randomly, and replacing conventional controllers with black-box models
is also undesirable. Also, it is expensive in continuous state and action
spaces, unless the search space is constrained. To address these challenges we
propose a specialized deep residual policy safe reinforcement learning with a
cycle of learning approach adapted for complex and continuous state-action
spaces. Residual policy learning allows learning a hybrid control architecture
where the reinforcement learning agent acts in synchronous collaboration with
the conventional controller. The cycle of learning initiates the policy through
the expert trajectory and guides the exploration around it. Further, the
specialization through the input-output hidden Markov model helps to optimize
policy that lies within the region of interest (such as abnormality), where the
reinforcement learning agent is required and is activated. The proposed
solution is validated on the Tennessee Eastman process control.
- Abstract(参考訳): 従来のコントローラは、問題の物理に関する事前の知識に依存し、力学のモデリングを必要とし、異常な状況に適応するのに苦労するため、制限がある。
深層強化学習は、環境探索を通じて最適制御ポリシーを学習することで、これらの問題に対処する可能性がある。
安全クリティカルな環境では、ランダムに探索することは現実的ではなく、従来のコントローラーをブラックボックスモデルに置き換えることも望ましくない。
また、連続状態と作用空間では、探索空間が制約されない限り高価である。
これらの課題に対処するために,複雑かつ連続的な状態対応空間に適応した学習アプローチのサイクルを取り入れた,専門的な深層政策安全な強化学習を提案する。
残留ポリシー学習は、強化学習エージェントが従来のコントローラと協調して行動するハイブリッド制御アーキテクチャを学習することができる。
学習のサイクルは、専門家の軌道を通じてポリシーを開始し、それに関する探索を導く。
さらに、入力出力隠れマルコフモデルによる特殊化は、強化学習エージェントが必要であり、活性化される領域(異常など)内に存在するポリシーを最適化するのに役立つ。
提案手法はテネシー・イーストマンプロセス制御で検証される。
関連論文リスト
- RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Hierarchical Framework for Interpretable and Probabilistic Model-Based
Safe Reinforcement Learning [1.3678669691302048]
本稿では,安全クリティカルシステムにおける深層強化学習の新たなアプローチを提案する。
確率論的モデリングと強化学習の利点と、解釈可能性の利点を兼ね備えている。
論文 参考訳(メタデータ) (2023-10-28T20:30:57Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Learning Variable Impedance Control for Aerial Sliding on Uneven
Heterogeneous Surfaces by Proprioceptive and Tactile Sensing [42.27572349747162]
本研究では,空中すべり作業に対する学習に基づく適応制御手法を提案する。
提案するコントローラ構造は,データ駆動制御とモデルベース制御を組み合わせたものである。
美術品間相互作用制御手法の微調整状態と比較して,追従誤差の低減と外乱拒否の改善を実現した。
論文 参考訳(メタデータ) (2022-06-28T16:28:59Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Residual Feedback Learning for Contact-Rich Manipulation Tasks with
Uncertainty [22.276925045008788]
emphglsrplは強化学習(RL)で既存のコントローラを改善するための定式化を提供する
位置・方向の不確実性を考慮したコンタクトリッチペグ挿入作業において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-08T13:06:35Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。