論文の概要: Generalised Policy Improvement with Geometric Policy Composition
- arxiv url: http://arxiv.org/abs/2206.08736v1
- Date: Fri, 17 Jun 2022 12:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 21:19:35.839495
- Title: Generalised Policy Improvement with Geometric Policy Composition
- Title(参考訳): 幾何学的政策構成による一般政策改善
- Authors: Shantanu Thakoor, Mark Rowland, Diana Borsa, Will Dabney, R\'emi
Munos, Andr\'e Barreto
- Abstract要約: 本稿では、価値に基づく強化学習(RL)の欲求的アプローチと、モデルベースRLに典型的なフルプランニングアプローチとを補間する政策改善手法を提案する。
我々は,基本方針GHMの注意深く構成することにより,マルコフ政策の集合を一定の確率で切り換える非マルコフ政策を評価できることを示す。
そして、そのような非マルコフ政策の集合に一般化された政策改善(GPI)を適用して、その前駆体を全般的に上回る新しいマルコフ政策を得る。
- 参考スコア(独自算出の注目度): 18.80807234471197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a method for policy improvement that interpolates between the
greedy approach of value-based reinforcement learning (RL) and the full
planning approach typical of model-based RL. The new method builds on the
concept of a geometric horizon model (GHM, also known as a gamma-model), which
models the discounted state-visitation distribution of a given policy. We show
that we can evaluate any non-Markov policy that switches between a set of base
Markov policies with fixed probability by a careful composition of the base
policy GHMs, without any additional learning. We can then apply generalised
policy improvement (GPI) to collections of such non-Markov policies to obtain a
new Markov policy that will in general outperform its precursors. We provide a
thorough theoretical analysis of this approach, develop applications to
transfer and standard RL, and empirically demonstrate its effectiveness over
standard GPI on a challenging deep RL continuous control task. We also provide
an analysis of GHM training methods, proving a novel convergence result
regarding previously proposed methods and showing how to train these models
stably in deep RL settings.
- Abstract(参考訳): 本稿では、価値ベース強化学習(RL)の欲求的アプローチとモデルベースRLに典型的な計画的アプローチとを補間する政策改善手法を提案する。
この新しい手法は、与えられたポリシーの割引された状態参照分布をモデル化する幾何学的地平線モデル(ghm、ガンマモデルとしても知られる)の概念に基づいている。
我々は,基本方針GHMを慎重に構成することにより,マルコフ政策の集合を一定の確率で切り換える非マルコフ政策を,追加の学習なしに評価できることを示す。
そして、そのような非マルコフ政策の集合に一般化された政策改善(GPI)を適用して、その前駆体を全般的に上回る新しいマルコフ政策を得る。
本稿では,本手法の詳細な理論的解析を行い,トランスファーと標準RLの応用を開発し,挑戦的なRL連続制御タスクにおいて標準GPIよりも有効であることを示す。
また,ghmトレーニング手法の解析を行い,提案手法に関する新しい収束結果を示し,これらのモデルを深いrl環境で安定的にトレーニングする方法を示す。
関連論文リスト
- Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。
勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。
その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文 参考訳(メタデータ) (2024-09-25T17:56:02Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Model-based Offline Reinforcement Learning with Local Misspecification [35.75701143290119]
本稿では、モデルに基づくオフライン強化学習ポリシーの性能を低くし、動的モデルの誤特定と分布ミスマッチを明示的にキャプチャする。
最適なオフラインポリシー選択のための経験的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-26T21:26:56Z) - Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。
MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。
我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文 参考訳(メタデータ) (2022-02-07T04:15:20Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - MPC-based Reinforcement Learning for Economic Problems with Application
to Battery Storage [0.0]
モデル予測制御(MPC)に基づく政策近似に焦点を当てます。
政策勾配法は,政策が(ほぼ)バンバン構造を持つ場合,政策パラメータに意味のあるステップを生じさせることに苦慮する。
本稿では,内点法に基づくホモトピー戦略を提案し,学習中に方針を緩和する。
論文 参考訳(メタデータ) (2021-04-06T10:37:14Z) - Improving Actor-Critic Reinforcement Learning via Hamiltonian Policy [11.34520632697191]
強化学習(RL)における最適なポリシーの近似は、多くの現実のシナリオでしばしば必要です。
本研究は,ハミルトニアン・モンテカルロ (HMC) を VI で使用したことに触発されて,政策最適化を HMC と統合することを提案する。
提案手法は,従来のポリシー最適化手法よりもデータ効率が良く,実装が容易であることを示す。
論文 参考訳(メタデータ) (2021-03-22T17:26:43Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - A Study of Policy Gradient on a Class of Exactly Solvable Models [35.90565839381652]
我々は、厳密な解決可能なPOMDPの特別なクラスに対して、ポリシーパラメータの進化を連続状態マルコフ連鎖として検討する。
我々のアプローチはランダムウォーク理論、特にアフィンワイル群に大きく依存している。
我々は,政策勾配の確率収束を,値関数の局所的最大値に対して解析する。
論文 参考訳(メタデータ) (2020-11-03T17:27:53Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。