論文の概要: Safe Reinforcement Learning of Control-Affine Systems with Vertex
Networks
- arxiv url: http://arxiv.org/abs/2003.09488v1
- Date: Fri, 20 Mar 2020 20:32:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 22:17:22.990438
- Title: Safe Reinforcement Learning of Control-Affine Systems with Vertex
Networks
- Title(参考訳): 頂点ネットワークを用いた制御親和システムの安全強化学習
- Authors: Liyuan Zheng, Yuanyuan Shi, Lillian J. Ratliff, Baosen Zhang
- Abstract要約: 本稿では,厳密な状態と行動制約を持つ制御系に対する強化学習ポリシーの探索に焦点をあてる。
制約満足度、あるいは安全性を確保するためのこれまでの作業は、学習されたポリシーに予測ステップを追加することに重点を置いていた。
この問題に対処するため,本研究では,探索中の安全性と学習制御ポリシを保証したVertex Networks (VNs) と呼ばれる新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 14.461847761198037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on finding reinforcement learning policies for control
systems with hard state and action constraints. Despite its success in many
domains, reinforcement learning is challenging to apply to problems with hard
constraints, especially if both the state variables and actions are
constrained. Previous works seeking to ensure constraint satisfaction, or
safety, have focused on adding a projection step to a learned policy. Yet, this
approach requires solving an optimization problem at every policy execution
step, which can lead to significant computational costs.
To tackle this problem, this paper proposes a new approach, termed Vertex
Networks (VNs), with guarantees on safety during exploration and on learned
control policies by incorporating the safety constraints into the policy
network architecture. Leveraging the geometric property that all points within
a convex set can be represented as the convex combination of its vertices, the
proposed algorithm first learns the convex combination weights and then uses
these weights along with the pre-calculated vertices to output an action. The
output action is guaranteed to be safe by construction. Numerical examples
illustrate that the proposed VN algorithm outperforms vanilla reinforcement
learning in a variety of benchmark control tasks.
- Abstract(参考訳): 本稿では,ハード状態と動作制約のある制御系に対する強化学習方針の探索に着目する。
多くの領域で成功したにもかかわらず、強化学習は厳しい制約のある問題、特に状態変数と行動の両方が制約されている場合に適用することが困難である。
制約満足度、あるいは安全性を確保するためのこれまでの作業は、学習されたポリシーに予測ステップを追加することに重点を置いていた。
しかし、このアプローチでは、すべてのポリシー実行ステップで最適化問題を解決する必要があるため、かなりの計算コストがかかる可能性がある。
この問題に対処するため,本論文では,安全制約をポリシネットワークアーキテクチャに組み込むことで,探索中の安全性と学習制御ポリシを保証し,VN(Vertex Networks)と呼ばれる新しいアプローチを提案する。
凸集合内のすべての点がその頂点の凸結合として表現できる幾何学的性質を利用して、提案するアルゴリズムはまず凸結合重みを学習し、これらの重みを事前計算された頂点と共に作用を出力する。
出力アクションは、建設によって安全であることが保証される。
数値例は,提案するvnアルゴリズムが様々なベンチマーク制御タスクにおいてバニラ強化学習よりも優れていることを示す。
関連論文リスト
- SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Robust Safe Reinforcement Learning under Adversarial Disturbances [12.145611442959602]
現実世界の制御タスクに強化学習を適用する場合、安全が主な関心事である。
既存の安全な強化学習アルゴリズムは、外部の障害をほとんど考慮しない。
本稿では,最悪のケース障害に対処する堅牢な安全強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T05:34:46Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文 参考訳(メタデータ) (2022-12-28T10:22:36Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。