Fugu-MT 論文翻訳(概要): Variational Policy Gradient Method for Reinforcement Learning with General Utilities

論文の概要: Variational Policy Gradient Method for Reinforcement Learning with General Utilities

arxiv url: http://arxiv.org/abs/2007.02151v1
Date: Sat, 4 Jul 2020 17:51:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-13 13:10:08.329946
Title: Variational Policy Gradient Method for Reinforcement Learning with General Utilities
Title（参考訳）: 一般用途による強化学習のための変分ポリシー勾配法
Authors: Junyu Zhang, Alec Koppel, Amrit Singh Bedi, Csaba Szepesvari, and Mengdi Wang
Abstract要約: 近年,累積報酬の合計を超える総合目標を持つ強化学習システムが注目を集めている。本稿では,一般的な凹凸ユーティリティ関数を対象とする決定問題におけるポリシーについて考察する。汎用性を持つRLの新しい変分ポリシー勾配定理を導出する。
参考スコア（独自算出の注目度）: 38.54243339632217
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, reinforcement learning (RL) systems with general goals beyond a cumulative sum of rewards have gained traction, such as in constrained problems, exploration, and acting upon prior experiences. In this paper, we consider policy optimization in Markov Decision Problems, where the objective is a general concave utility function of the state-action occupancy measure, which subsumes several of the aforementioned examples as special cases. Such generality invalidates the Bellman equation. As this means that dynamic programming no longer works, we focus on direct policy search. Analogously to the Policy Gradient Theorem \cite{sutton2000policy} available for RL with cumulative rewards, we derive a new Variational Policy Gradient Theorem for RL with general utilities, which establishes that the parametrized policy gradient may be obtained as the solution of a stochastic saddle point problem involving the Fenchel dual of the utility function. We develop a variational Monte Carlo gradient estimation algorithm to compute the policy gradient based on sample paths. We prove that the variational policy gradient scheme converges globally to the optimal policy for the general objective, though the optimization problem is nonconvex. We also establish its rate of convergence of the order $O(1/t)$ by exploiting the hidden convexity of the problem, and proves that it converges exponentially when the problem admits hidden strong convexity. Our analysis applies to the standard RL problem with cumulative rewards as a special case, in which case our result improves the available convergence rate.
Abstract（参考訳）: 近年,報酬の累積和を超える汎用的な目標を持つ強化学習システム(RL)が,制約問題や探索,先行経験に基づく行動など,注目を集めている。本稿では,マルコフ決定問題における政策最適化について考察する。その目的は,上記の事例のいくつかを特殊事例として仮定した,状態行動占有度尺度の一般的な凹凸ユーティリティ関数である。このような一般性はベルマン方程式を無効にする。これは、動的プログラミングがもはや機能しないことを意味するので、直接ポリシー検索にフォーカスします。累積的な報酬を持つ RL に対して利用可能なポリシーグラディエント定理 ( Policy Gradient Theorem \cite{sutton2000policy}) に類似して、一般ユーティリティを持つRL の変分ポリシーグラディエント定理(英語版)を導出し、実用関数のフェンシェル双対を含む確率的なサドル点問題の解としてパラメタライズされたポリシー勾配が得られることを証明した。サンプルパスに基づくポリシー勾配を計算するための変分モンテカルロ勾配推定アルゴリズムを開発した。最適化問題は非凸であるが, 変分政策勾配スキームは一般目的の最適政策にグローバルに収束することを示す。また, 問題の隠れた凸性を利用して, 次数 $o(1/t)$ の収束率を確立し, 問題が隠れた強い凸性を認めると指数関数的に収束することを示す。我々の分析は、累積報酬を伴う標準RL問題に適用され、その場合、我々の結果は利用可能な収束率を改善する。

関連論文リスト

Beyond Expected Returns: A Policy Gradient Algorithm for Cumulative Prospect Theoretic Reinforcement Learning [0.46040036610482665]
累積プロスペクト理論(CPT)は、経験的証拠によって支持された人間に基づく意思決定のためのより良いモデルを提供するために開発された。数年前、CPTは強化学習(Reinforcement Learning, RL)と組み合わせて、CPTポリシー最適化問題を定式化した。政策勾配アルゴリズムは, 既存のゼロ次アルゴリズムと比較して, 同じ問題を解くために, より大きな状態空間に拡張可能であることを示す。
論文参考訳（メタデータ） (2024-10-03T15:45:39Z)
Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文参考訳（メタデータ） (2024-09-25T17:56:02Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
On The Convergence Of Policy Iteration-Based Reinforcement Learning With Monte Carlo Policy Evaluation [11.345796608258434]
このような政策反復スキームの最初の訪問バージョンは、政策改善ステップがルックアヘッドを使用する場合、最適方針に収束することを示す。また,関数近似設定の拡張を行い,アルゴリズムが関数近似誤差内の最適ポリシに近く動作することを示す。
論文参考訳（メタデータ） (2023-01-23T20:32:41Z)
Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文参考訳（メタデータ） (2022-10-03T14:57:46Z)
A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。 PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文参考訳（メタデータ） (2021-07-23T19:38:17Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文参考訳（メタデータ） (2021-02-17T07:06:19Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。