Fugu-MT 論文翻訳(概要): A Policy Efficient Reduction Approach to Convex Constrained Deep Reinforcement Learning

論文の概要: A Policy Efficient Reduction Approach to Convex Constrained Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2108.12916v1
Date: Sun, 29 Aug 2021 20:51:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-31 14:31:24.746345
Title: A Policy Efficient Reduction Approach to Convex Constrained Deep Reinforcement Learning
Title（参考訳）: Convex Constrained Deep Reinforcement Learning に対する政策効率化手法
Authors: Tianchi Cai, Wenpeng Zhang, Lihong Gu, Xiaodong Zeng, Jinjie Gu
Abstract要約: 本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
参考スコア（独自算出の注目度）: 2.811714058940267
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Although well-established in general reinforcement learning (RL), value-based methods are rarely explored in constrained RL (CRL) for their incapability of finding policies that can randomize among multiple actions. To apply value-based methods to CRL, a recent groundbreaking line of game-theoretic approaches uses the mixed policy that randomizes among a set of carefully generated policies to converge to the desired constraint-satisfying policy. However, these approaches require storing a large set of policies, which is not policy efficient, and may incur prohibitive memory costs in constrained deep RL. To address this problem, we propose an alternative approach. Our approach first reformulates the CRL to an equivalent distance optimization problem. With a specially designed linear optimization oracle, we derive a meta-algorithm that solves it using any off-the-shelf RL algorithm and any conditional gradient (CG) type algorithm as subroutines. We then propose a new variant of the CG-type algorithm, which generalizes the minimum norm point (MNP) method. The proposed method matches the convergence rate of the existing game-theoretic approaches and achieves the worst-case optimal policy efficiency. The experiments on a navigation task show that our method reduces the memory costs by an order of magnitude, and meanwhile achieves better performance, demonstrating both its effectiveness and efficiency.
Abstract（参考訳）: 一般強化学習(RL)では確立されているが、複数のアクション間でランダム化可能なポリシーを見つけることができないため、制約付きRL(CRL)ではバリューベースの手法が探索されることは稀である。 CRLに値ベースの手法を適用するために、近年のゲーム理論的アプローチの画期的なラインでは、慎重に生成されたポリシーの集合をランダム化し、所望の制約満足ポリシーに収束する混合ポリシーを用いる。しかし、これらのアプローチはポリシー効率が良くなく、制約された深いrlのメモリコストを発生させる可能性がある、大量のポリシーを格納する必要がある。この問題に対処するため、我々は別のアプローチを提案する。提案手法はまずCRLを等価距離最適化問題に再構成する。特別に設計された線形最適化オラクルを用いて,任意の既成RLアルゴリズムと任意の条件勾配(CG)型アルゴリズムをサブルーチンとするメタアルゴリズムを導出する。次に,最小基準点法(MNP)を一般化したCG型アルゴリズムの新たな変種を提案する。提案手法は,既存のゲーム理論アプローチの収束率と一致し,最悪の最適政策効率を実現する。ナビゲーションタスクにおける実験により,本手法はメモリコストを1桁削減し,その効果と効率を両立させるとともに,より優れた性能を実現することを示す。

関連論文リスト

Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Iteratively Refined Behavior Regularization for Offline Reinforcement Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。 D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-06-09T07:46:24Z)
Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。 Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文参考訳（メタデータ） (2022-12-29T18:25:01Z)
Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-03T01:54:55Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。 OptiDICEは最先端の手法と競合して動作することを示す。
論文参考訳（メタデータ） (2021-06-21T00:43:30Z)
Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文参考訳（メタデータ） (2021-04-09T14:50:59Z)
Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文参考訳（メタデータ） (2021-02-22T14:28:03Z)
CRPO: A New Approach for Safe Reinforcement Learning with Convergence Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文参考訳（メタデータ） (2020-11-11T16:05:14Z)
Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文参考訳（メタデータ） (2020-09-14T16:22:46Z)
Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。 PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文参考訳（メタデータ） (2020-07-31T01:02:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。