論文の概要: A Policy Efficient Reduction Approach to Convex Constrained Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2108.12916v1
- Date: Sun, 29 Aug 2021 20:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:31:24.746345
- Title: A Policy Efficient Reduction Approach to Convex Constrained Deep
Reinforcement Learning
- Title(参考訳): Convex Constrained Deep Reinforcement Learning に対する政策効率化手法
- Authors: Tianchi Cai, Wenpeng Zhang, Lihong Gu, Xiaodong Zeng, Jinjie Gu
- Abstract要約: 本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。
提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
- 参考スコア(独自算出の注目度): 2.811714058940267
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although well-established in general reinforcement learning (RL), value-based
methods are rarely explored in constrained RL (CRL) for their incapability of
finding policies that can randomize among multiple actions. To apply
value-based methods to CRL, a recent groundbreaking line of game-theoretic
approaches uses the mixed policy that randomizes among a set of carefully
generated policies to converge to the desired constraint-satisfying policy.
However, these approaches require storing a large set of policies, which is not
policy efficient, and may incur prohibitive memory costs in constrained deep
RL. To address this problem, we propose an alternative approach. Our approach
first reformulates the CRL to an equivalent distance optimization problem. With
a specially designed linear optimization oracle, we derive a meta-algorithm
that solves it using any off-the-shelf RL algorithm and any conditional
gradient (CG) type algorithm as subroutines. We then propose a new variant of
the CG-type algorithm, which generalizes the minimum norm point (MNP) method.
The proposed method matches the convergence rate of the existing game-theoretic
approaches and achieves the worst-case optimal policy efficiency. The
experiments on a navigation task show that our method reduces the memory costs
by an order of magnitude, and meanwhile achieves better performance,
demonstrating both its effectiveness and efficiency.
- Abstract(参考訳): 一般強化学習(RL)では確立されているが、複数のアクション間でランダム化可能なポリシーを見つけることができないため、制約付きRL(CRL)ではバリューベースの手法が探索されることは稀である。
CRLに値ベースの手法を適用するために、近年のゲーム理論的アプローチの画期的なラインでは、慎重に生成されたポリシーの集合をランダム化し、所望の制約満足ポリシーに収束する混合ポリシーを用いる。
しかし、これらのアプローチはポリシー効率が良くなく、制約された深いrlのメモリコストを発生させる可能性がある、大量のポリシーを格納する必要がある。
この問題に対処するため、我々は別のアプローチを提案する。
提案手法はまずCRLを等価距離最適化問題に再構成する。
特別に設計された線形最適化オラクルを用いて,任意の既成RLアルゴリズムと任意の条件勾配(CG)型アルゴリズムをサブルーチンとするメタアルゴリズムを導出する。
次に,最小基準点法(MNP)を一般化したCG型アルゴリズムの新たな変種を提案する。
提案手法は,既存のゲーム理論アプローチの収束率と一致し,最悪の最適政策効率を実現する。
ナビゲーションタスクにおける実験により,本手法はメモリコストを1桁削減し,その効果と効率を両立させるとともに,より優れた性能を実現することを示す。
関連論文リスト
- Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with
Uniform PAC Guarantees [30.064420218612582]
本稿では,オンライン制約付きマルコフ決定過程(CMDP)問題に対するRLアルゴリズムについて検討する。
均一に近似した精度(Uniform-PAC)を保証する新しい勾配双対アルゴリズムを提案する。
理論的保証に加えて、我々のアルゴリズムが最適ポリシーに収束することを示す単純なCMDPを実証的に示す。
論文 参考訳(メタデータ) (2024-01-31T12:23:24Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Average-Constrained Policy Optimization [33.68933638935459]
平均基準付き制約付きMDPに対する関数近似アルゴリズムを用いた新しいポリシー最適化を提案する。
平均CMDP設定に適合する他の最先端アルゴリズムと比較して,アルゴリズムの性能が優れていることを示す。
論文 参考訳(メタデータ) (2023-02-02T00:23:36Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。