論文の概要: Safe Reinforcement Learning of Control-Affine Systems with Vertex
Networks
- arxiv url: http://arxiv.org/abs/2003.09488v1
- Date: Fri, 20 Mar 2020 20:32:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 22:17:22.990438
- Title: Safe Reinforcement Learning of Control-Affine Systems with Vertex
Networks
- Title(参考訳): 頂点ネットワークを用いた制御親和システムの安全強化学習
- Authors: Liyuan Zheng, Yuanyuan Shi, Lillian J. Ratliff, Baosen Zhang
- Abstract要約: 本稿では,厳密な状態と行動制約を持つ制御系に対する強化学習ポリシーの探索に焦点をあてる。
制約満足度、あるいは安全性を確保するためのこれまでの作業は、学習されたポリシーに予測ステップを追加することに重点を置いていた。
この問題に対処するため,本研究では,探索中の安全性と学習制御ポリシを保証したVertex Networks (VNs) と呼ばれる新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 14.461847761198037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on finding reinforcement learning policies for control
systems with hard state and action constraints. Despite its success in many
domains, reinforcement learning is challenging to apply to problems with hard
constraints, especially if both the state variables and actions are
constrained. Previous works seeking to ensure constraint satisfaction, or
safety, have focused on adding a projection step to a learned policy. Yet, this
approach requires solving an optimization problem at every policy execution
step, which can lead to significant computational costs.
To tackle this problem, this paper proposes a new approach, termed Vertex
Networks (VNs), with guarantees on safety during exploration and on learned
control policies by incorporating the safety constraints into the policy
network architecture. Leveraging the geometric property that all points within
a convex set can be represented as the convex combination of its vertices, the
proposed algorithm first learns the convex combination weights and then uses
these weights along with the pre-calculated vertices to output an action. The
output action is guaranteed to be safe by construction. Numerical examples
illustrate that the proposed VN algorithm outperforms vanilla reinforcement
learning in a variety of benchmark control tasks.
- Abstract(参考訳): 本稿では,ハード状態と動作制約のある制御系に対する強化学習方針の探索に着目する。
多くの領域で成功したにもかかわらず、強化学習は厳しい制約のある問題、特に状態変数と行動の両方が制約されている場合に適用することが困難である。
制約満足度、あるいは安全性を確保するためのこれまでの作業は、学習されたポリシーに予測ステップを追加することに重点を置いていた。
しかし、このアプローチでは、すべてのポリシー実行ステップで最適化問題を解決する必要があるため、かなりの計算コストがかかる可能性がある。
この問題に対処するため,本論文では,安全制約をポリシネットワークアーキテクチャに組み込むことで,探索中の安全性と学習制御ポリシを保証し,VN(Vertex Networks)と呼ばれる新しいアプローチを提案する。
凸集合内のすべての点がその頂点の凸結合として表現できる幾何学的性質を利用して、提案するアルゴリズムはまず凸結合重みを学習し、これらの重みを事前計算された頂点と共に作用を出力する。
出力アクションは、建設によって安全であることが保証される。
数値例は,提案するvnアルゴリズムが様々なベンチマーク制御タスクにおいてバニラ強化学習よりも優れていることを示す。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning [26.244121960815907]
本稿では,多目的学習と制約順守の政策最適化を協調するプライマリベースフレームワークを提案する。
提案手法は,複数のRL目標を最適化するために,新しい自然ポリシー勾配演算法を用いる。
また,提案手法は,安全性の高い多目的強化学習タスクにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:42:10Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Robust Safe Reinforcement Learning under Adversarial Disturbances [12.145611442959602]
現実世界の制御タスクに強化学習を適用する場合、安全が主な関心事である。
既存の安全な強化学習アルゴリズムは、外部の障害をほとんど考慮しない。
本稿では,最悪のケース障害に対処する堅牢な安全強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T05:34:46Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文 参考訳(メタデータ) (2022-12-28T10:22:36Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。