論文の概要: An operator view of policy gradient methods
- arxiv url: http://arxiv.org/abs/2006.11266v3
- Date: Thu, 22 Oct 2020 23:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 03:21:22.868387
- Title: An operator view of policy gradient methods
- Title(参考訳): 政策勾配法の運用者視点
- Authors: Dibya Ghosh, Marlos C. Machado, Nicolas Le Roux
- Abstract要約: 本稿では,REINFORCE や PPO などの従来のポリシー勾配法を演算子ベースで導入する。
例えば、REINFORCE と Bellman の最適性演算子は、同じコインの2つの側面と見なせるかを示す。
- 参考スコア(独自算出の注目度): 30.36647348038735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We cast policy gradient methods as the repeated application of two operators:
a policy improvement operator $\mathcal{I}$, which maps any policy $\pi$ to a
better one $\mathcal{I}\pi$, and a projection operator $\mathcal{P}$, which
finds the best approximation of $\mathcal{I}\pi$ in the set of realizable
policies. We use this framework to introduce operator-based versions of
traditional policy gradient methods such as REINFORCE and PPO, which leads to a
better understanding of their original counterparts. We also use the
understanding we develop of the role of $\mathcal{I}$ and $\mathcal{P}$ to
propose a new global lower bound of the expected return. This new perspective
allows us to further bridge the gap between policy-based and value-based
methods, showing how REINFORCE and the Bellman optimality operator, for
example, can be seen as two sides of the same coin.
- Abstract(参考訳): ポリシー改善演算子 $\mathcal{i}$ は、任意のポリシー $\pi$ をよりよい1ドルの$\mathcal{i}\pi$ にマッピングし、投影演算子 $\mathcal{p}$ は、実現可能なポリシーの集合において$\mathcal{i}\pi$ の最適な近似を求める。
我々はこのフレームワークを使って、REINFORCEやPPOといった従来のポリシー勾配メソッドの演算子ベースのバージョンを導入します。
また、期待されるリターンの新たなグローバルな下限を提案するために、 $\mathcal{I}$ と $\mathcal{P}$ の役割の理解を深める。
この新たな視点により、ポリシーベースと価値ベースの方法のギャップをさらに橋渡しすることができ、例えば、ベルマン最適演算子と強固さを、同じコインの2つの側面として見ることができる。
関連論文リスト
- Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Adaptive Policy Learning to Additional Tasks [3.43814540650436]
本稿では,事前訓練されたポリシーを調整し,本来のタスクを変更することなく追加タスクに適応するためのポリシー学習手法を開発する。
本稿では,適応政策グラディエント (APG) という手法を提案する。これはベルマンの最適性の原理と,収束率を改善するための政策勾配アプローチを組み合わせたものである。
論文 参考訳(メタデータ) (2023-05-24T14:31:11Z) - Sample Complexity of Policy-Based Methods under Off-Policy Sampling and
Linear Function Approximation [8.465228064780748]
政策評価には、オフ政治サンプリングと線形関数近似を用いる。
自然政策勾配(NPG)を含む様々な政策更新規則が政策更新のために検討されている。
我々は、最適なポリシーを見つけるために、合計$mathcalO(epsilon-2)$サンプルの複雑さを初めて確立する。
論文 参考訳(メタデータ) (2022-08-05T15:59:05Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Differentiable Bandit Exploration [38.81737411000074]
我々は、$mathcalP$からサンプルを使って未知のディストリビューション$mathcalP$についてそのようなポリシーを学ぶ。
我々のアプローチはメタラーニングの形式であり、その形式について強い仮定をすることなく$mathcalP$のプロパティを利用する。
論文 参考訳(メタデータ) (2020-02-17T05:07:35Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。