論文の概要: Dr Jekyll and Mr Hyde: the Strange Case of Off-Policy Policy Updates
- arxiv url: http://arxiv.org/abs/2109.14727v1
- Date: Wed, 29 Sep 2021 21:15:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 15:07:34.524124
- Title: Dr Jekyll and Mr Hyde: the Strange Case of Off-Policy Policy Updates
- Title(参考訳): ジキル博士とハイド氏:オフ・ポリシー更新の奇妙な事例
- Authors: Romain Laroche, Remi Tachet
- Abstract要約: 政策勾配定理は、政策は現在の政策によって訪問される州でのみ更新されるべきであると述べている。
我々は、政策勾配理論を国家密度に関する政策更新に拡張することで、この計画課題に取り組む。
これらの一般化された政策更新の下では、必要かつ十分な条件下で収束最適性を示す。
- 参考スコア(独自算出の注目度): 15.769203583656324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The policy gradient theorem states that the policy should only be updated in
states that are visited by the current policy, which leads to insufficient
planning in the off-policy states, and thus to convergence to suboptimal
policies. We tackle this planning issue by extending the policy gradient theory
to policy updates with respect to any state density. Under these generalized
policy updates, we show convergence to optimality under a necessary and
sufficient condition on the updates' state densities, and thereby solve the
aforementioned planning issue. We also prove asymptotic convergence rates that
significantly improve those in the policy gradient literature.
To implement the principles prescribed by our theory, we propose an agent, Dr
Jekyll & Mr Hyde (JH), with a double personality: Dr Jekyll purely exploits
while Mr Hyde purely explores. JH's independent policies allow to record two
separate replay buffers: one on-policy (Dr Jekyll's) and one off-policy (Mr
Hyde's), and therefore to update JH's models with a mixture of on-policy and
off-policy updates. More than an algorithm, JH defines principles for
actor-critic algorithms to satisfy the requirements we identify in our
analysis. We extensively test on finite MDPs where JH demonstrates a superior
ability to recover from converging to a suboptimal policy without impairing its
speed of convergence. We also implement a deep version of the algorithm and
test it on a simple problem where it shows promising results.
- Abstract(参考訳): 政策勾配定理は、政策は現在の政策が訪れた州でのみ更新されるべきであり、これは非政治国家の計画が不十分になり、したがって準最適政策に収束することを意味する。
我々は、政策勾配理論を国家密度に関する政策更新に拡張することで、この計画課題に取り組む。
これらの一般的な方針更新では,更新状態密度の必要十分条件下での最適性への収束が示され,その結果,上記の計画課題が解決される。
また,政策勾配文献において,漸近収束率が有意に改善することを示す。
我々の理論で定められた原則を実装するために、我々は、ジェキル博士とハイド博士(JH)というエージェントを二重の性格で提案する: ジェキル博士は純粋に搾取し、ハイド氏は純粋に探索する。
jhの独立したポリシーは、2つの異なるリプレイバッファを記録できる: 1つのオン・ポリシー (dr jekyll's) と1つのオフ・ポリシー (mr hyde's) であり、それゆえjhのモデルをオン・ポリシーとオフ・ポリシーのアップデートの混合で更新することができる。
アルゴリズムよりも、JHは我々が分析で特定した要件を満たすためにアクター批判アルゴリズムの原則を定義している。
我々は,JHが収束速度を損なうことなく,収束から最適下方策へ回復する優れた能力を示す有限MDPを広範囲に検証した。
また、アルゴリズムの深いバージョンを実装し、有望な結果を示す単純な問題でテストします。
関連論文リスト
- Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Policy Optimization over General State and Action Spaces [7.177693955272473]
一般的な状態や行動空間に対する強化学習(RL)問題は非常に難しい。
まず,最近開発された一般状態と行動空間を扱うために,政策ミラー降下法をかなり一般化した手法を提案する。
本手法に関数近似を組み込む新しい手法を導入し、明示的なポリシーパラメータ化を全く必要としない。
論文 参考訳(メタデータ) (2022-11-30T03:44:44Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Beyond the Policy Gradient Theorem for Efficient Policy Updates in
Actor-Critic Algorithms [10.356356383401566]
強化学習では、ある状態における最適な行動は、その後の状態における政策決定に依存する。
政策勾配定理は, 目標値に対する構造対称性のため, 未学習の遅い政策更新を規定する。
我々は、その欠陥を欠いたポリシー更新を導入し、古典的な仮定で$mathcalO(t-1)$で、グローバル最適性への収束の保証を証明した。
論文 参考訳(メタデータ) (2022-02-15T15:04:10Z) - Homotopic Policy Mirror Descent: Policy Convergence, Implicit
Regularization, and Improved Sample Complexity [40.2022466644885]
有限状態と作用空間を持つ割引・無限水平型MDPを解くホモトピーポリシーミラー降下法(HPMD)法。
政策勾配法に関する文献では, 新たな3つの特性が報告されている。
論文 参考訳(メタデータ) (2022-01-24T04:54:58Z) - An Alternate Policy Gradient Estimator for Softmax Policies [36.48028448548086]
ソフトマックス政策のための新しいポリシー勾配推定器を提案する。
バンディットと古典的MDPベンチマークタスクを用いた分析と実験により,我々の推定器は政策飽和に対してより堅牢であることが示された。
論文 参考訳(メタデータ) (2021-12-22T02:01:19Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。