論文の概要: Accelerating Safe Reinforcement Learning with Constraint-mismatched
Policies
- arxiv url: http://arxiv.org/abs/2006.11645v3
- Date: Sat, 10 Jul 2021 02:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 21:52:57.046232
- Title: Accelerating Safe Reinforcement Learning with Constraint-mismatched
Policies
- Title(参考訳): 制約ミスマッチポリシーによる安全強化学習の促進
- Authors: Tsung-Yen Yang and Justinian Rosca and Karthik Narasimhan and Peter J.
Ramadge
- Abstract要約: 本稿では,ベースライン制御ポリシと学習者が満たさなければならない制約のセットを備える場合の強化学習の問題点について考察する。
本稿では,タスクに対する期待リターンの最大化,基本方針への距離の最小化,制約満足度セットへのポリシーの投影とを交互に行う反復的ポリシ最適化アルゴリズムを提案する。
我々のアルゴリズムは、最先端のベースラインを一貫して上回り、制約違反を10倍少なくし、平均で40%高い報酬を得る。
- 参考スコア(独自算出の注目度): 34.555500347840805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of reinforcement learning when provided with (1) a
baseline control policy and (2) a set of constraints that the learner must
satisfy. The baseline policy can arise from demonstration data or a teacher
agent and may provide useful cues for learning, but it might also be
sub-optimal for the task at hand, and is not guaranteed to satisfy the
specified constraints, which might encode safety, fairness or other
application-specific requirements. In order to safely learn from baseline
policies, we propose an iterative policy optimization algorithm that alternates
between maximizing expected return on the task, minimizing distance to the
baseline policy, and projecting the policy onto the constraint-satisfying set.
We analyze our algorithm theoretically and provide a finite-time convergence
guarantee. In our experiments on five different control tasks, our algorithm
consistently outperforms several state-of-the-art baselines, achieving 10 times
fewer constraint violations and 40% higher reward on average.
- Abstract(参考訳): 本研究では,(1)ベースライン制御ポリシと(2)学習者が満たさなければならない制約のセットを備える場合の強化学習の問題を考える。
基本方針は、デモンストレーションデータや教師エージェントから生じて、学習に有用な手がかりを提供することもあるが、手元にあるタスクには準最適であり、安全、公正、その他のアプリケーション固有の要件を符号化する特定の制約を満たすことが保証されていない。
基本方針から安全に学習するために,タスクに対する期待収益の最大化,基本方針への距離の最小化,制約満足セットへのポリシーの投影を交互に行う反復的ポリシー最適化アルゴリズムを提案する。
アルゴリズムを理論的に解析し,有限時間収束保証を提供する。
5つの異なる制御タスクに関する実験では、アルゴリズムが最先端のベースラインを一貫して上回っており、10倍の制約違反と平均40%の報酬を達成しています。
関連論文リスト
- Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning [26.244121960815907]
本稿では,多目的学習と制約順守の政策最適化を協調するプライマリベースフレームワークを提案する。
提案手法は,複数のRL目標を最適化するために,新しい自然ポリシー勾配演算法を用いる。
また,提案手法は,安全性の高い多目的強化学習タスクにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:42:10Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文 参考訳(メタデータ) (2022-12-28T10:22:36Z) - Safety-Constrained Policy Transfer with Successor Features [19.754549649781644]
本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。
我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。
シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-10T06:06:36Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Off-Policy Optimization of Portfolio Allocation Policies under
Constraints [0.8848340429852071]
財務の動的ポートフォリオ最適化問題には、投資家の好みとリスクによって、さまざまな制約に従う学習ポリシーが頻繁に必要です。
本研究の目的は, 逐次的意思決定枠組み内でアロケーションポリシを見つけることであり, (a) 適用済みのポリシに基づいて収集されたデータを使用すること, (b) 所望の制約を課すこと, (b) ほぼ最適ポリシーをこのデータで計算することである。
論文 参考訳(メタデータ) (2020-12-21T22:22:04Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。