Fugu-MT 論文翻訳(概要): CIM-PPO:Proximal Policy Optimization with Liu-Correntropy Induced Metric

論文の概要: CIM-PPO:Proximal Policy Optimization with Liu-Correntropy Induced Metric

arxiv url: http://arxiv.org/abs/2110.10522v1
Date: Wed, 20 Oct 2021 12:20:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-22 14:38:29.642238
Title: CIM-PPO:Proximal Policy Optimization with Liu-Correntropy Induced Metric
Title（参考訳）: CIM-PPO:Liu-Correntropy誘発計量を用いた最適政策最適化
Authors: Yunxiao Guo, Han Long, Xiaojun Duan, Kaiyuan Feng, Maochu Li, Xiaying Ma
Abstract要約: 深層強化学習に基づくアルゴリズムとして、PPO(Proximal Policy Optimization)は多くの複雑なタスクでよく機能する。 Clip-PPOは様々な実践的なシナリオで広く使われており、多くの研究者の注目を集めている。より理論的なアルゴリズムとして、KL-PPOはCliP-PPOほど性能が良くなかったため無視された。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As an algorithm based on deep reinforcement learning, Proximal Policy Optimization (PPO) performs well in many complex tasks and has become one of the most popular RL algorithms in recent years. According to the mechanism of penalty in surrogate objective, PPO can be divided into PPO with KL Divergence (KL-PPO) and PPO with Clip function(Clip-PPO). Clip-PPO is widely used in a variety of practical scenarios and has attracted the attention of many researchers. Therefore, many variations have also been created, making the algorithm better and better. However, as a more theoretical algorithm, KL-PPO was neglected because its performance was not as good as CliP-PPO. In this article, we analyze the asymmetry effect of KL divergence on PPO's objective function , and give the inequality that can indicate when the asymmetry will affect the efficiency of KL-PPO. Proposed PPO with Correntropy Induced Metric algorithm(CIM-PPO) that use the theory of correntropy(a symmetry metric method that was widely used in M-estimation to evaluate two distributions' difference)and applied it in PPO. Then, we designed experiments based on OpenAIgym to test the effectiveness of the new algorithm and compare it with KL-PPO and CliP-PPO.
Abstract（参考訳）: 深層強化学習に基づくアルゴリズムとして、PPO(Proximal Policy Optimization)は多くの複雑なタスクでよく機能し、近年で最も人気のあるRLアルゴリズムの1つとなっている。代理目的のペナルティのメカニズムにより、PPOはKLディバージェンス(KL-PPO)とClip関数(Clip-PPO)のPPOに分けられる。 clip-ppoは様々な実用シナリオで広く使われ、多くの研究者の注目を集めている。そのため、多くのバリエーションが作成され、アルゴリズムがより良くなっている。しかし、より理論的なアルゴリズムとして、KL-PPOはCliP-PPOほど性能が良くなかったため無視された。本稿では、PPOの目的関数に対するKL分散の非対称性効果を分析し、その非対称性がKL-PPOの効率にいつ影響するかを示す不等式を与える。コレントロピー誘導計量アルゴリズム(CIM-PPO)を用いて提案されたPPOは、コレントロピー(M推定で広く用いられていた対称性メートル法)の理論を用いてPPOに適用した。そこで我々は,OpenAIgymをベースとした実験を行い,新しいアルゴリズムの有効性を検証し,KL-PPOとCliP-PPOと比較した。

関連論文リスト

TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization [73.16975077770765]
近年の強化学習の進歩は、きめ細かいトークンレベルの報酬モデルを利用することで、PPO(Pximal Policy Optimization)の性能を大幅に向上させることができることを示している。直接選好最適化(DPO)のガイダンスとしてこのようなトークンレベルの報酬を活用することは困難である。この研究は、PPOをトークンレベルのポリシー最適化問題列に分解し、トークンレベルの報酬ガイダンスでトークンレベルのPPOの問題をフレーム化する。
論文参考訳（メタデータ） (2025-06-17T14:30:06Z)
PPO in the Fisher-Rao geometry [0.0]
PPO(Proximal Policy Optimization)は、強化学習のアルゴリズムとして広く採用されている。その人気にもかかわらず、PPOは政策改善と収束に関する正式な理論的保証を欠いている。本稿では,フィッシャー・ラオ幾何におけるより強いサロゲートを導出し,新しい変種であるフィッシャー・ラオPPO(FR-PPO)を導出する。
論文参考訳（メタデータ） (2025-06-04T09:23:27Z)
Understanding Reference Policies in Direct Preference Optimization [50.67309013764383]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)の微調整のための訓練手法として広く使われている。この研究は、参照モデルやポリシーに依存しているDPOの未検討の側面を探求する。
論文参考訳（メタデータ） (2024-07-18T17:08:10Z)
Transductive Off-policy Proximal Policy Optimization [27.954910833441705]
本稿では,従来のPPO法(Transductive Off-policy PPO (ToPPO))と命名された新しいオフポリシー拡張を提案する。我々の貢献には、非政治データから導かれる将来的な政策に対する政策改善の低い境界の新たな定式化が含まれます。 ToPPOの有望な性能を裏付ける6つの代表的なタスクの総合的な実験結果。
論文参考訳（メタデータ） (2024-06-06T09:29:40Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文参考訳（メタデータ） (2023-12-12T06:35:56Z)
PPO-UE: Proximal Policy Optimization via Uncertainty-Aware Exploration [14.17825337817933]
自己適応型不確実性探索機能を備えたPPO-UEを提案する。提案するPPO-UEは,Roboschool連続制御タスクのベースラインPPOよりもかなり優れている。
論文参考訳（メタデータ） (2022-12-13T02:51:43Z)
Monotonic Improvement Guarantees under Non-stationarity for Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文参考訳（メタデータ） (2022-01-31T20:39:48Z)
You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。 ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文参考訳（メタデータ） (2022-01-31T20:26:56Z)
Hinge Policy Optimization: Rethinking Policy Improvement and Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。 PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文参考訳（メタデータ） (2021-10-26T15:56:57Z)
Permutation Invariant Policy Optimization for Mean-Field Multi-Agent Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文参考訳（メタデータ） (2021-05-18T04:35:41Z)
On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。 3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文参考訳（メタデータ） (2021-02-20T05:51:28Z)
Proximal Policy Optimization with Relative Pearson Divergence [8.071506311915396]
PPOは、最新ポリシーとベースラインポリシーの密度比を閾値でクリップするが、最小化ターゲットは不明確である。本稿では、相対ピアソン分散(RPE)の正規化問題(いわゆるPPO-RPE)を考慮し、PPOの新しい変種を提案する。 4つのベンチマークタスクを通じて,PPO-RPEは学習方針によるタスク性能の点で従来の手法と同等以上の性能を示した。
論文参考訳（メタデータ） (2020-10-07T09:11:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。