論文の概要: Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO
- arxiv url: http://arxiv.org/abs/2110.13799v1
- Date: Tue, 26 Oct 2021 15:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 15:48:53.148726
- Title: Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO
- Title(参考訳): ヒンジ政策最適化:政策改善とPPOの再検討
- Authors: Hsuan-Yu Yao, Ping-Chun Hsieh, Kuo-Hao Ho, Kai-Chun Hu, Liang-Chun
Ouyang, I-Chen Wu
- Abstract要約: 政策最適化は強化学習アルゴリズムを設計するための基本原理である。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
- 参考スコア(独自算出の注目度): 6.33198867705718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy optimization is a fundamental principle for designing reinforcement
learning algorithms, and one example is the proximal policy optimization
algorithm with a clipped surrogate objective (PPO-clip), which has been
popularly used in deep reinforcement learning due to its simplicity and
effectiveness. Despite its superior empirical performance, PPO-clip has not
been justified via theoretical proof up to date. This paper proposes to rethink
policy optimization and reinterpret the theory of PPO-clip based on hinge
policy optimization (HPO), called to improve policy by hinge loss in this
paper. Specifically, we first identify sufficient conditions of state-wise
policy improvement and then rethink policy update as solving a large-margin
classification problem with hinge loss. By leveraging various types of
classifiers, the proposed design opens up a whole new family of policy-based
algorithms, including the PPO-clip as a special case. Based on this construct,
we prove that these algorithms asymptotically attain a globally optimal policy.
To our knowledge, this is the first ever that can prove global convergence to
an optimal policy for a variant of PPO-clip. We corroborate the performance of
a variety of HPO algorithms through experiments and an ablation study.
- Abstract(参考訳): 政策最適化は、強化学習アルゴリズムを設計するための基本原理であり、そのシンプルさと有効性から、深い強化学習に広く用いられているクリッピングサロゲート目的 (PPO-clip) を持つ近似的政策最適化アルゴリズムである。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
本稿では,政策最適化を再考し,ヒンジ政策最適化(HPO)に基づくPPO-clip理論を再解釈し,ヒンジ損失による政策改善を訴える。
具体的には、まず国家政策改善の十分な条件を特定し、その後、政策更新をヒンジロスを伴う大規模分類問題の解決として再考する。
各種の分類器を活用することで、PPO-clipを含むポリシーベースのアルゴリズムの全く新しいファミリーを特別なケースとして開放する。
この構成に基づき、これらのアルゴリズムが漸近的にグローバルに最適なポリシーに達することを証明する。
我々の知る限り、これはPPO-clipの変種に対する最適ポリシーへのグローバル収束を証明できる初めてのものである。
我々は,実験とアブレーション研究を通じて,様々なHPOアルゴリズムの性能を相関づける。
関連論文リスト
- Beyond Expected Returns: A Policy Gradient Algorithm for Cumulative Prospect Theoretic Reinforcement Learning [0.46040036610482665]
累積プロスペクト理論(CPT)は、経験的証拠によって支持された人間に基づく意思決定のためのより良いモデルを提供するために開発された。
数年前、CPTは強化学習(Reinforcement Learning, RL)と組み合わせて、CPTポリシー最適化問題を定式化した。
政策勾配アルゴリズムは, 既存のゼロ次アルゴリズムと比較して, 同じ問題を解くために, より大きな状態空間に拡張可能であることを示す。
論文 参考訳(メタデータ) (2024-10-03T15:45:39Z) - Reflective Policy Optimization [20.228281670899204]
リフレクティブポリシー最適化(RPO) 政策最適化のための過去と将来の状態対応情報。
RPOはエージェントにイントロスペクションの権限を与え、現在の状態内でのアクションの変更を可能にする。
RPOの有効性と有効性は2つの強化学習ベンチマークで実証された。
論文 参考訳(メタデータ) (2024-06-06T01:46:49Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Proximal Policy Optimization Smoothed Algorithm [0.0]
我々はPPOの変種であるPPOS(Proximal Policy Optimization Smooth Algorithm)を提案する。
その重要な改善点は、フラットなクリッピング法の代わりに機能的なクリッピング法を使用することである。
連続制御タスクにおける性能と安定性の両面で、最新のPPOのバリエーションよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-04T07:43:50Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。