論文の概要: Quantile-Based Policy Optimization for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.11463v1
- Date: Thu, 27 Jan 2022 12:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 14:08:07.532381
- Title: Quantile-Based Policy Optimization for Reinforcement Learning
- Title(参考訳): 強化学習のための量子ベースのポリシー最適化
- Authors: Jinyang Jiang, Jiaqiao Hu, Yijie Peng
- Abstract要約: ニューラルネットワークによるポリシー制御動作のパラメータ化と、QPO(Quantile-Based Policy Optimization)と呼ばれる新しいポリシー勾配アルゴリズムを提案する。
数値計算の結果,提案アルゴリズムは量子的基準の下で既存のベースラインアルゴリズムより優れていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical reinforcement learning (RL) aims to optimize the expected
cumulative rewards. In this work, we consider the RL setting where the goal is
to optimize the quantile of the cumulative rewards. We parameterize the policy
controlling actions by neural networks and propose a novel policy gradient
algorithm called Quantile-Based Policy Optimization (QPO) and its variant
Quantile-Based Proximal Policy Optimization (QPPO) to solve deep RL problems
with quantile objectives. QPO uses two coupled iterations running at different
time scales for simultaneously estimating quantiles and policy parameters and
is shown to converge to the global optimal policy under certain conditions. Our
numerical results demonstrate that the proposed algorithms outperform the
existing baseline algorithms under the quantile criterion.
- Abstract(参考訳): 古典的強化学習(RL)は、期待される累積報酬を最適化することを目的としている。
本研究では,累積報酬の量的最適化を目標とする rl 設定について考察する。
本稿では,ニューラルネットによるポリシー制御行動をパラメータ化し,qpo(quantile-based policy optimization)と呼ばれる新しいポリシー勾配アルゴリズムと,その変種であるquantile-based proximal policy optimization(qppo)を提案する。
QPOは、異なる時間スケールで実行されている2つの結合反復を用いて、量子とポリシーパラメータを同時に推定し、ある条件下でのグローバル最適ポリシーに収束することが示される。
数値計算の結果,提案アルゴリズムは量子的基準の下で既存のベースラインアルゴリズムより優れていることが示された。
関連論文リスト
- Fast Policy Learning for Linear Quadratic Control with Entropy
Regularization [10.771650397337366]
本稿では,レギュラー化政策勾配 (RPG) と反復政策最適化 (IPO) の2つの新しい政策学習手法を提案し,分析する。
正確な政策評価にアクセスできると仮定すると、どちらの手法も正規化されたLQCの最適ポリシーを見つける際に線形に収束することが証明される。
論文 参考訳(メタデータ) (2023-11-23T19:08:39Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Quantile-Based Deep Reinforcement Learning using Two-Timescale Policy
Gradient Algorithms [0.0]
ニューラルネットワークによるポリシー制御動作のパラメータ化を行い,QPO(Quantile-Based Policy Optimization)と呼ばれる新しいポリシー勾配アルゴリズムを提案する。
数値計算の結果,提案アルゴリズムは量子的基準の下で既存のベースラインアルゴリズムより優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-05-12T04:47:02Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-26T15:56:57Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Projection-Based Constrained Policy Optimization [34.555500347840805]
我々は,PCPO (Projection-based Constrained Policy Optimization) という新しいアルゴリズムを提案する。
PCPOは、最先端の手法に比べて3.5倍以上の制約違反と約15%の報酬を達成している。
論文 参考訳(メタデータ) (2020-10-07T04:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。