論文の概要: Memory-Constrained Policy Optimization
- arxiv url: http://arxiv.org/abs/2204.09315v1
- Date: Wed, 20 Apr 2022 08:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 21:19:35.049797
- Title: Memory-Constrained Policy Optimization
- Title(参考訳): メモリ制約付きポリシー最適化
- Authors: Hung Le, Thommen Karimpanal George, Majid Abdolshah, Dung Nguyen, Kien
Do, Sunil Gupta, Svetha Venkatesh
- Abstract要約: 政策勾配強化学習のための制約付き最適化手法を提案する。
我々は、過去の幅広い政策を表す別の仮想ポリシーの構築を通じて、第2の信頼領域を形成します。
そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。
- 参考スコア(独自算出の注目度): 59.63021433336966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new constrained optimization method for policy gradient
reinforcement learning, which uses two trust regions to regulate each policy
update. In addition to using the proximity of one single old policy as the
first trust region as done by prior works, we propose to form a second trust
region through the construction of another virtual policy that represents a
wide range of past policies. We then enforce the new policy to stay closer to
the virtual policy, which is beneficial in case the old policy performs badly.
More importantly, we propose a mechanism to automatically build the virtual
policy from a memory buffer of past policies, providing a new capability for
dynamically selecting appropriate trust regions during the optimization
process. Our proposed method, dubbed as Memory-Constrained Policy Optimization
(MCPO), is examined on a diverse suite of environments including robotic
locomotion control, navigation with sparse rewards and Atari games,
consistently demonstrating competitive performance against recent on-policy
constrained policy gradient methods.
- Abstract(参考訳): 本稿では、2つの信頼領域を用いてポリシー更新を規制するポリシー勾配強化学習の新しい制約付き最適化手法を提案する。
先行研究による第1の信頼領域としての1つの旧方針の近接性に加えて,過去の幅広い政策を表わす別の仮想政策を構築することにより,第2の信頼領域を形成することを提案する。
そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。
より重要なことは、過去のポリシーのメモリバッファから仮想ポリシーを自動的に構築するメカニズムを提案し、最適化プロセス中に適切な信頼領域を動的に選択する新機能を提供する。
提案手法はmpo(memory-constrained policy optimization)と呼ばれ,ロボットのロコモーション制御,スパース報酬によるナビゲーション,atariゲームなどの多様な環境について検討し,近年のオンポリシー制約ポリシー勾配法と一貫して競合性能を示す。
関連論文リスト
- Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Provably Convergent Policy Optimization via Metric-aware Trust Region
Methods [21.950484108431944]
信頼領域法は、強化学習における政策最適化の安定化に広く用いられている。
我々は、より柔軟なメトリクスを活用し、ワッサーシュタインとシンクホーンの信頼領域によるポリシー最適化の2つの自然な拡張について検討する。
WPOは単調な性能向上を保証し、SPOはエントロピー正則化器が減少するにつれてWPOに確実に収束することを示す。
論文 参考訳(メタデータ) (2023-06-25T05:41:38Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Local Policy Improvement for Recommender Systems [8.617221361305901]
我々は、以前デプロイされたポリシーから収集されたデータをもとに、新しいポリシーをトレーニングする方法を示す。
我々は,地方政策改善の代替策として,非政治的是正を伴わないアプローチを提案する。
この局所的な政策改善パラダイムはレコメンデーションシステムに理想的であり、以前の方針は一般的に適切な品質であり、ポリシーは頻繁に更新される。
論文 参考訳(メタデータ) (2022-12-22T00:47:40Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。