論文の概要: Dr Jekyll and Mr Hyde: the Strange Case of Off-Policy Policy Updates
- arxiv url: http://arxiv.org/abs/2109.14727v1
- Date: Wed, 29 Sep 2021 21:15:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 15:07:34.524124
- Title: Dr Jekyll and Mr Hyde: the Strange Case of Off-Policy Policy Updates
- Title(参考訳): ジキル博士とハイド氏:オフ・ポリシー更新の奇妙な事例
- Authors: Romain Laroche, Remi Tachet
- Abstract要約: 政策勾配定理は、政策は現在の政策によって訪問される州でのみ更新されるべきであると述べている。
我々は、政策勾配理論を国家密度に関する政策更新に拡張することで、この計画課題に取り組む。
これらの一般化された政策更新の下では、必要かつ十分な条件下で収束最適性を示す。
- 参考スコア(独自算出の注目度): 15.769203583656324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The policy gradient theorem states that the policy should only be updated in
states that are visited by the current policy, which leads to insufficient
planning in the off-policy states, and thus to convergence to suboptimal
policies. We tackle this planning issue by extending the policy gradient theory
to policy updates with respect to any state density. Under these generalized
policy updates, we show convergence to optimality under a necessary and
sufficient condition on the updates' state densities, and thereby solve the
aforementioned planning issue. We also prove asymptotic convergence rates that
significantly improve those in the policy gradient literature.
To implement the principles prescribed by our theory, we propose an agent, Dr
Jekyll & Mr Hyde (JH), with a double personality: Dr Jekyll purely exploits
while Mr Hyde purely explores. JH's independent policies allow to record two
separate replay buffers: one on-policy (Dr Jekyll's) and one off-policy (Mr
Hyde's), and therefore to update JH's models with a mixture of on-policy and
off-policy updates. More than an algorithm, JH defines principles for
actor-critic algorithms to satisfy the requirements we identify in our
analysis. We extensively test on finite MDPs where JH demonstrates a superior
ability to recover from converging to a suboptimal policy without impairing its
speed of convergence. We also implement a deep version of the algorithm and
test it on a simple problem where it shows promising results.
- Abstract(参考訳): 政策勾配定理は、政策は現在の政策が訪れた州でのみ更新されるべきであり、これは非政治国家の計画が不十分になり、したがって準最適政策に収束することを意味する。
我々は、政策勾配理論を国家密度に関する政策更新に拡張することで、この計画課題に取り組む。
これらの一般的な方針更新では,更新状態密度の必要十分条件下での最適性への収束が示され,その結果,上記の計画課題が解決される。
また,政策勾配文献において,漸近収束率が有意に改善することを示す。
我々の理論で定められた原則を実装するために、我々は、ジェキル博士とハイド博士(JH)というエージェントを二重の性格で提案する: ジェキル博士は純粋に搾取し、ハイド氏は純粋に探索する。
jhの独立したポリシーは、2つの異なるリプレイバッファを記録できる: 1つのオン・ポリシー (dr jekyll's) と1つのオフ・ポリシー (mr hyde's) であり、それゆえjhのモデルをオン・ポリシーとオフ・ポリシーのアップデートの混合で更新することができる。
アルゴリズムよりも、JHは我々が分析で特定した要件を満たすためにアクター批判アルゴリズムの原則を定義している。
我々は,JHが収束速度を損なうことなく,収束から最適下方策へ回復する優れた能力を示す有限MDPを広範囲に検証した。
また、アルゴリズムの深いバージョンを実装し、有望な結果を示す単純な問題でテストします。
関連論文リスト
- Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Fat-to-Thin Policy Optimization: Offline RL with Sparse Policies [5.5938591697033555]
スパース連続ポリシー(sparse continuous policy)は、ランダムにいくつかのアクションを選択するが、他のアクションの確率を厳密にゼロにする分布である。
本稿では,Fat-to-Thin Policy Optimization (FtTPO) という,この問題に対処する最初のオフラインポリシ最適化アルゴリズムを提案する。
FtTPOを、ヘビーテールとスパースポリシーの両方を含む一般的な$q$-Gaussianファミリーでインスタンス化する。
論文 参考訳(メタデータ) (2025-01-24T10:11:48Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Beyond the Policy Gradient Theorem for Efficient Policy Updates in
Actor-Critic Algorithms [10.356356383401566]
強化学習では、ある状態における最適な行動は、その後の状態における政策決定に依存する。
政策勾配定理は, 目標値に対する構造対称性のため, 未学習の遅い政策更新を規定する。
我々は、その欠陥を欠いたポリシー更新を導入し、古典的な仮定で$mathcalO(t-1)$で、グローバル最適性への収束の保証を証明した。
論文 参考訳(メタデータ) (2022-02-15T15:04:10Z) - Homotopic Policy Mirror Descent: Policy Convergence, Implicit
Regularization, and Improved Sample Complexity [40.2022466644885]
有限状態と作用空間を持つ割引・無限水平型MDPを解くホモトピーポリシーミラー降下法(HPMD)法。
政策勾配法に関する文献では, 新たな3つの特性が報告されている。
論文 参考訳(メタデータ) (2022-01-24T04:54:58Z) - An Alternate Policy Gradient Estimator for Softmax Policies [36.48028448548086]
ソフトマックス政策のための新しいポリシー勾配推定器を提案する。
バンディットと古典的MDPベンチマークタスクを用いた分析と実験により,我々の推定器は政策飽和に対してより堅牢であることが示された。
論文 参考訳(メタデータ) (2021-12-22T02:01:19Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。