論文の概要: Proximal Policy Optimization with Adaptive Threshold for Symmetric
Relative Density Ratio
- arxiv url: http://arxiv.org/abs/2203.09809v1
- Date: Fri, 18 Mar 2022 09:13:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:00:03.517477
- Title: Proximal Policy Optimization with Adaptive Threshold for Symmetric
Relative Density Ratio
- Title(参考訳): 対称相対密度比に対する適応閾値を用いた近似政策最適化
- Authors: Taisuke Kobayashi
- Abstract要約: 一般的な方法、いわゆるポリシ最適化(PPO)とその変種は、密度比が与えられた閾値を超える場合に、最新のポリシーとベースラインポリシーの密度比を制約する。
本稿では,相対的ピアソン(RPE)偏差を用いた新しいPPO(PPO-RPE)を提案し,その閾値を適応的に設計する。
- 参考スコア(独自算出の注目度): 8.071506311915396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) is one of the promising approaches for
introducing robots into complicated environments. The recent remarkable
progress of DRL stands on regularization of policy, which allows the policy to
improve stably and efficiently. A popular method, so-called proximal policy
optimization (PPO), and its variants constrain density ratio of the latest and
baseline policies when the density ratio exceeds a given threshold. This
threshold can be designed relatively intuitively, and in fact its recommended
value range has been suggested. However, the density ratio is asymmetric for
its center, and the possible error scale from its center, which should be close
to the threshold, would depend on how the baseline policy is given. In order to
maximize the values of regularization of policy, this paper proposes a new PPO
derived using relative Pearson (RPE) divergence, therefore so-called PPO-RPE,
to design the threshold adaptively. In PPO-RPE, the relative density ratio,
which can be formed with symmetry, replaces the raw density ratio. Thanks to
this symmetry, its error scale from center can easily be estimated, hence, the
threshold can be adapted for the estimated error scale. From three simple
benchmark simulations, the importance of algorithm-dependent threshold design
is revealed. By simulating additional four locomotion tasks, it is verified
that the proposed method statistically contributes to task accomplishment by
appropriately restricting the policy updates.
- Abstract(参考訳): 深層強化学習(DRL)は複雑な環境にロボットを導入する上で有望なアプローチの1つである。
DRLの最近の顕著な進歩は、政策の規則化であり、政策を安定かつ効率的に改善することができる。
一般的な手法、いわゆる近位政策最適化(ppo)とその変種は、密度比が所定の閾値を超えると、最新のポリシーとベースラインポリシーの密度比を制約する。
この閾値は比較的直感的に設計することができ、実際には推奨値範囲が提案されている。
しかし、密度比は中心に対して非対称であり、その中心からの誤差スケールは閾値に近いはずであり、基準政策がどのように与えられるかに依存する。
政策の正則化の値を最大化するために,本論文では,相対的ピアソン(RPE)偏差(PPO-RPE)を用いた新しいPPOを提案し,その閾値を適応的に設計する。
PPO-RPEでは、対称性で形成できる相対密度比が原密度比を置き換える。
この対称性により、その中心からの誤差スケールを推定しやすく、推定誤差スケールにしきい値を適用することができる。
3つの単純なベンチマークシミュレーションから,アルゴリズム依存のしきい値設計の重要性が明らかになった。
追加の4つの移動タスクをシミュレートすることにより,提案手法がタスク達成に統計的に貢献することを確認した。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。
我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文 参考訳(メタデータ) (2022-01-28T18:54:30Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Proximal Policy Optimization with Relative Pearson Divergence [8.071506311915396]
PPOは、最新ポリシーとベースラインポリシーの密度比を閾値でクリップするが、最小化ターゲットは不明確である。
本稿では、相対ピアソン分散(RPE)の正規化問題(いわゆるPPO-RPE)を考慮し、PPOの新しい変種を提案する。
4つのベンチマークタスクを通じて,PPO-RPEは学習方針によるタスク性能の点で従来の手法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2020-10-07T09:11:22Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。