論文の概要: ReLOAD: Reinforcement Learning with Optimistic Ascent-Descent for
Last-Iterate Convergence in Constrained MDPs
- arxiv url: http://arxiv.org/abs/2302.01275v1
- Date: Thu, 2 Feb 2023 18:05:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 12:57:55.471280
- Title: ReLOAD: Reinforcement Learning with Optimistic Ascent-Descent for
Last-Iterate Convergence in Constrained MDPs
- Title(参考訳): ReLOAD:拘束型MDPにおける最終Iterate Convergenceのための最適漸進学習による強化学習
- Authors: Ted Moskovitz, Brendan O'Donoghue, Vivek Veeriah, Sebastian
Flennerhag, Satinder Singh, Tom Zahavy
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, 実世界の課題に応用され, 成功を収めている。
Reinforcement Learning with Optimistic Ascent-Descent (ReLOAD)を紹介する。
- 参考スコア(独自算出の注目度): 31.663072540757643
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent years, Reinforcement Learning (RL) has been applied to real-world
problems with increasing success. Such applications often require to put
constraints on the agent's behavior. Existing algorithms for constrained RL
(CRL) rely on gradient descent-ascent, but this approach comes with a caveat.
While these algorithms are guaranteed to converge on average, they do not
guarantee last-iterate convergence, i.e., the current policy of the agent may
never converge to the optimal solution. In practice, it is often observed that
the policy alternates between satisfying the constraints and maximizing the
reward, rarely accomplishing both objectives simultaneously. Here, we address
this problem by introducing Reinforcement Learning with Optimistic
Ascent-Descent (ReLOAD), a principled CRL method with guaranteed last-iterate
convergence. We demonstrate its empirical effectiveness on a wide variety of
CRL problems including discrete MDPs and continuous control. In the process we
establish a benchmark of challenging CRL problems.
- Abstract(参考訳): 近年,Reinforcement Learning (RL) が実世界の問題に適用され,成功を収めている。
このようなアプリケーションは、しばしばエージェントの振る舞いに制約を課す必要がある。
制約付きRL(CRL)の既存のアルゴリズムは勾配降下上昇に依存するが、このアプローチには注意が必要である。
これらのアルゴリズムは平均的に収束することが保証されているが、ラストイテレート収束を保証せず、すなわち、エージェントの現在のポリシーは最適解に収束しないかもしれない。
実際には、政策が制約を満たすことと報酬を最大化することとを交互に行うことがしばしば観察され、同時に両方の目的を達成することは滅多にない。
本稿では,最終項目収束を保証するCRL法であるReinforcement Learning with Optimistic Ascent-Descent (ReLOAD)を導入することでこの問題に対処する。
離散MDPや連続制御を含む多種多様なCRL問題に対して,その経験的効果を示す。
この過程で、CRL問題に関するベンチマークを確立する。
関連論文リスト
- Robust off-policy Reinforcement Learning via Soft Constrained Adversary [0.7583052519127079]
本稿では,f-divergence制約問題と,それ以前の知識分布について述べる。
2つの典型的な攻撃とそれに対応する堅牢な学習フレームワークを導出する。
提案手法は, サンプル効率のよいオフポリチックRLにおいて, 優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-31T11:13:33Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - A Connection between One-Step Regularization and Critic Regularization
in Reinforcement Learning [163.44116192806922]
1ステップの手法は、政策改善の1ステップだけを実行することで正規化を行う。
批判的正規化手法は 政策改善の多くのステップを 正規化の目的で行います
多段階批判正規化法を1イテレーションの正規化係数で適用すると、1ステップRLと同じポリシーが得られる。
論文 参考訳(メタデータ) (2023-07-24T17:46:32Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - A Policy Efficient Reduction Approach to Convex Constrained Deep
Reinforcement Learning [2.811714058940267]
本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。
提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
論文 参考訳(メタデータ) (2021-08-29T20:51:32Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。