論文の概要: Improving Actor-Critic Reinforcement Learning via Hamiltonian Policy
- arxiv url: http://arxiv.org/abs/2103.12020v1
- Date: Mon, 22 Mar 2021 17:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 18:45:25.774910
- Title: Improving Actor-Critic Reinforcement Learning via Hamiltonian Policy
- Title(参考訳): ハミルトン政策によるアクター・クリティカル強化学習の改善
- Authors: Duo Xu, Faramarz Fekri
- Abstract要約: 強化学習(RL)における最適なポリシーの近似は、多くの現実のシナリオでしばしば必要です。
本研究は,ハミルトニアン・モンテカルロ (HMC) を VI で使用したことに触発されて,政策最適化を HMC と統合することを提案する。
提案手法は,従来のポリシー最適化手法よりもデータ効率が良く,実装が容易であることを示す。
- 参考スコア(独自算出の注目度): 11.34520632697191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Approximating optimal policies in reinforcement learning (RL) is often
necessary in many real-world scenarios, which is termed as policy optimization.
By viewing the reinforcement learning from the perspective of variational
inference (VI), the policy network is trained to obtain the approximate
posterior of actions given the optimality criteria. However, in practice, the
policy optimization may lead to suboptimal policy estimates due to the
amortization gap and insufficient exploration. In this work, inspired by the
previous use of Hamiltonian Monte Carlo (HMC) in VI, we propose to integrate
policy optimization with HMC. As such we choose evolving actions from the base
policy according to HMC. First, HMC can improve the policy distribution to
better approximate the posterior and hence reduces the amortization gap.
Second, HMC can also guide the exploration more to the regions with higher
action values, enhancing the exploration efficiency. Instead of directly
applying HMC into RL, we propose a new leapfrog operator to simulate the
Hamiltonian dynamics. With comprehensive empirical experiments on continuous
control baselines, including MuJoCo, PyBullet Roboschool and DeepMind Control
Suite, we show that the proposed approach is a data-efficient, and an
easy-to-implement improvement over previous policy optimization methods.
Besides, the proposed approach can also outperform previous methods on DeepMind
Control Suite, which has image-based high-dimensional observation space.
- Abstract(参考訳): 強化学習(rl)における最適政策の近似は、多くの現実世界のシナリオにおいてしばしば必要となる。
変動推論(VI)の観点から強化学習を見ることにより、最適性基準が与えられた行動の近似後部を求めるようにポリシーネットワークを訓練する。
しかし、実際には、政策最適化は、償却ギャップと探検不足のため、最適でない政策推定に繋がる可能性がある。
本研究は,ハミルトニアン・モンテカルロ (HMC) を VI で使用したことに触発されて,政策最適化を HMC と統合することを提案する。
したがって、HMCに従って基本方針から進化する行動を選択する。
第一に、HMCは政策分布を改善して後部をよりよく近似し、したがって償却ギャップを減らすことができる。
第二に、HMCはより高い行動値を持つ地域への探索を誘導し、探索効率を高めることができる。
RL に直接 HMC を適用する代わりに、ハミルトン力学をシミュレートする新しい跳躍作用素を提案する。
また,MuJoCo,PyBullet Roboschool,DeepMind Control Suiteなどの連続制御ベースラインに関する総合的な実証実験により,提案手法はデータ効率が高く,従来のポリシー最適化手法よりも実装が容易であることを示す。
また,提案手法は画像に基づく高次元観測空間を有するDeepMind Control Suiteの従来手法よりも優れている。
関連論文リスト
- Forward KL Regularized Preference Optimization for Aligning Diffusion Policies [8.958830452149789]
拡散政策の学習における中心的な問題は、様々なタスクにおいて、政策の出力と人間の意図を一致させることである。
そこで本稿では,拡散ポリシーを優先事項と整合させる新しいフレームワーク,フォワードKL正規化参照最適化を提案する。
その結果,提案手法は好みとの整合性が優れ,従来の最先端アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-09T13:56:03Z) - POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Generalised Policy Improvement with Geometric Policy Composition [18.80807234471197]
本稿では、価値に基づく強化学習(RL)の欲求的アプローチと、モデルベースRLに典型的なフルプランニングアプローチとを補間する政策改善手法を提案する。
我々は,基本方針GHMの注意深く構成することにより,マルコフ政策の集合を一定の確率で切り換える非マルコフ政策を評価できることを示す。
そして、そのような非マルコフ政策の集合に一般化された政策改善(GPI)を適用して、その前駆体を全般的に上回る新しいマルコフ政策を得る。
論文 参考訳(メタデータ) (2022-06-17T12:52:13Z) - Variance Reduction based Partial Trajectory Reuse to Accelerate Policy
Gradient Optimization [3.621753051212441]
我々は,グリーンシミュレーション支援政策勾配(GS-PG)の考え方をマルコフ決定過程(MDP)の歴史的部分的再利用に拡張する。
本稿では、MLRに基づく政策勾配推定法を用いて、異なる行動方針の下で生成された歴史的状態決定遷移の情報を活用する。
論文 参考訳(メタデータ) (2022-05-06T01:42:28Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。