論文の概要: CIM-PPO:Proximal Policy Optimization with Liu-Correntropy Induced Metric
- arxiv url: http://arxiv.org/abs/2110.10522v1
- Date: Wed, 20 Oct 2021 12:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 14:38:29.642238
- Title: CIM-PPO:Proximal Policy Optimization with Liu-Correntropy Induced Metric
- Title(参考訳): CIM-PPO:Liu-Correntropy誘発計量を用いた最適政策最適化
- Authors: Yunxiao Guo, Han Long, Xiaojun Duan, Kaiyuan Feng, Maochu Li, Xiaying
Ma
- Abstract要約: 深層強化学習に基づくアルゴリズムとして、PPO(Proximal Policy Optimization)は多くの複雑なタスクでよく機能する。
Clip-PPOは様々な実践的なシナリオで広く使われており、多くの研究者の注目を集めている。
より理論的なアルゴリズムとして、KL-PPOはCliP-PPOほど性能が良くなかったため無視された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an algorithm based on deep reinforcement learning, Proximal Policy
Optimization (PPO) performs well in many complex tasks and has become one of
the most popular RL algorithms in recent years. According to the mechanism of
penalty in surrogate objective, PPO can be divided into PPO with KL Divergence
(KL-PPO) and PPO with Clip function(Clip-PPO). Clip-PPO is widely used in a
variety of practical scenarios and has attracted the attention of many
researchers. Therefore, many variations have also been created, making the
algorithm better and better. However, as a more theoretical algorithm, KL-PPO
was neglected because its performance was not as good as CliP-PPO. In this
article, we analyze the asymmetry effect of KL divergence on PPO's objective
function , and give the inequality that can indicate when the asymmetry will
affect the efficiency of KL-PPO. Proposed PPO with Correntropy Induced Metric
algorithm(CIM-PPO) that use the theory of correntropy(a symmetry metric method
that was widely used in M-estimation to evaluate two distributions'
difference)and applied it in PPO. Then, we designed experiments based on
OpenAIgym to test the effectiveness of the new algorithm and compare it with
KL-PPO and CliP-PPO.
- Abstract(参考訳): 深層強化学習に基づくアルゴリズムとして、PPO(Proximal Policy Optimization)は多くの複雑なタスクでよく機能し、近年で最も人気のあるRLアルゴリズムの1つとなっている。
代理目的のペナルティのメカニズムにより、PPOはKLディバージェンス(KL-PPO)とClip関数(Clip-PPO)のPPOに分けられる。
clip-ppoは様々な実用シナリオで広く使われ、多くの研究者の注目を集めている。
そのため、多くのバリエーションが作成され、アルゴリズムがより良くなっている。
しかし、より理論的なアルゴリズムとして、KL-PPOはCliP-PPOほど性能が良くなかったため無視された。
本稿では、PPOの目的関数に対するKL分散の非対称性効果を分析し、その非対称性がKL-PPOの効率にいつ影響するかを示す不等式を与える。
コレントロピー誘導計量アルゴリズム(CIM-PPO)を用いて提案されたPPOは、コレントロピー(M推定で広く用いられていた対称性メートル法)の理論を用いてPPOに適用した。
そこで我々は,OpenAIgymをベースとした実験を行い,新しいアルゴリズムの有効性を検証し,KL-PPOとCliP-PPOと比較した。
関連論文リスト
- Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for
LLM Alignment [37.52249093928251]
本稿では,新しい枠組み,相対的フィードバックによる強化学習,新しい軌道方向ポリシー勾配アルゴリズムを提案する。
理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。
実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-09-30T01:23:22Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z) - Proximal Policy Optimization Smoothed Algorithm [0.0]
我々はPPOの変種であるPPOS(Proximal Policy Optimization Smooth Algorithm)を提案する。
その重要な改善点は、フラットなクリッピング法の代わりに機能的なクリッピング法を使用することである。
連続制御タスクにおける性能と安定性の両面で、最新のPPOのバリエーションよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-04T07:43:50Z) - Proximal Policy Optimization via Enhanced Exploration Efficiency [6.2501569560329555]
近似ポリシー最適化(PPO)アルゴリズムは、優れた性能を持つ深層強化学習アルゴリズムである。
本稿では,PPOアルゴリズムにおける元のガウス的行動探索機構の仮定を分析し,探索能力が性能に与える影響を明らかにする。
複雑な環境で使用可能な固有探査モジュール(IEM-PPO)を提案する。
論文 参考訳(メタデータ) (2020-11-11T03:03:32Z) - Proximal Policy Optimization with Relative Pearson Divergence [8.071506311915396]
PPOは、最新ポリシーとベースラインポリシーの密度比を閾値でクリップするが、最小化ターゲットは不明確である。
本稿では、相対ピアソン分散(RPE)の正規化問題(いわゆるPPO-RPE)を考慮し、PPOの新しい変種を提案する。
4つのベンチマークタスクを通じて,PPO-RPEは学習方針によるタスク性能の点で従来の手法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2020-10-07T09:11:22Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。