Fugu-MT 論文翻訳(概要): Joint action loss for proximal policy optimization

論文の概要: Joint action loss for proximal policy optimization

arxiv url: http://arxiv.org/abs/2301.10919v1
Date: Thu, 26 Jan 2023 03:42:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-27 14:28:39.205259
Title: Joint action loss for proximal policy optimization
Title（参考訳）: 近位政策最適化のための共同動作損失
Authors: Xiulei Song, Yizhao Jin, Greg Slabaugh, Simon Lucas
Abstract要約: PPOは最先端のポリシー勾配アルゴリズムであり、Dota 2やHonor of Kingsのような複雑なコンピュータゲームにうまく適用されている。関節と別個の確率を組み合わせた多作用混合損失を提案する。当社のハイブリッドモデルは,OpenAIのPPOベンチマーク結果と比較して,異なる MuJoCo 環境で50%以上のパフォーマンス向上を実現しています。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: PPO (Proximal Policy Optimization) is a state-of-the-art policy gradient algorithm that has been successfully applied to complex computer games such as Dota 2 and Honor of Kings. In these environments, an agent makes compound actions consisting of multiple sub-actions. PPO uses clipping to restrict policy updates. Although clipping is simple and effective, it is not efficient in its sample use. For compound actions, most PPO implementations consider the joint probability (density) of sub-actions, which means that if the ratio of a sample (state compound-action pair) exceeds the range, the gradient the sample produces is zero. Instead, for each sub-action we calculate the loss separately, which is less prone to clipping during updates thereby making better use of samples. Further, we propose a multi-action mixed loss that combines joint and separate probabilities. We perform experiments in Gym-$\mu$RTS and MuJoCo. Our hybrid model improves performance by more than 50\% in different MuJoCo environments compared to OpenAI's PPO benchmark results. And in Gym-$\mu$RTS, we find the sub-action loss outperforms the standard PPO approach, especially when the clip range is large. Our findings suggest this method can better balance the use-efficiency and quality of samples.
Abstract（参考訳）: PPO(Proximal Policy Optimization)は、Dota 2やHonor of Kingsのような複雑なコンピュータゲームに適用された最先端のポリシー勾配アルゴリズムである。これらの環境では、エージェントは複数のサブアクションからなる複合作用を行う。 PPOは、ポリシー更新を制限するためにクリップを使用する。クリッピングは単純で効果的であるが, 試料使用では有効ではない。複合作用の場合、ほとんどのPPO実装は部分作用の結合確率(密度)を考慮しており、サンプル(状態複作用対)の比が範囲を超えた場合、サンプルが生成する勾配はゼロである。代わりに、各サブアクションに対して、損失を別々に計算します。さらに,ジョイントと分離確率を組み合わせたマルチアクション混合損失を提案する。 Gym-$\mu$RTS と MuJoCo で実験を行った。当社のハイブリッドモデルは,OpenAIのPPOベンチマーク結果と比較して,異なる MuJoCo 環境における性能を50%以上向上させる。そして、Gym-$\mu$RTSでは、特にクリップ範囲が大きい場合、サブアクション損失は標準的なPPOアプローチよりも優れている。本手法は, 試料の使用効率と品質のバランスを良くすると考えられる。

関連論文リスト

Centralized Adaptive Sampling for Reliable Co-Training of Independent Multi-Agent Policies [3.5253513747455303]
独立政策勾配アルゴリズムは、協調型・非競合型ゲームにおけるマルチエージェント強化学習(MARL)に広く用いられている。これらは、各エージェントのポリシー勾配が準最適均衡に向かっているときに、亜最適収束することが知られている。共同サンプリング誤差を低減するための適応的な動作サンプリング手法を提案する。
論文参考訳（メタデータ） (2025-08-01T20:07:25Z)
Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.22869332661607]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。 RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文参考訳（メタデータ） (2025-05-26T09:54:02Z)
CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [68.26281707780761]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。 CPPOはGSM8Kで最大8.32タイム、Mathで3.51タイム、オリジナルのGRPOと比較して精度を保ったり、向上させたりすることができる。
論文参考訳（メタデータ） (2025-03-28T11:30:05Z)
Adaptive Exploration for Multi-Reward Multi-Policy Evaluation [26.03922159496432]
オンラインマルチリワードマルチ政治ディスカウント設定における政策評価問題我々は、$epsilon$-accurate 推定の観点を採用して、有限あるいは凸な報酬の集合に対して$epsilon$accurate 推定を達成する。
論文参考訳（メタデータ） (2025-02-04T17:35:51Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文参考訳（メタデータ） (2023-12-12T06:35:56Z)
Sample Dropout: A Simple yet Effective Variance Reduction Technique in Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文参考訳（メタデータ） (2023-02-05T04:44:35Z)
You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。 ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文参考訳（メタデータ） (2022-01-31T20:26:56Z)
The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。 MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文参考訳（メタデータ） (2021-03-02T18:59:56Z)
Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。 3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文参考訳（メタデータ） (2021-01-19T18:55:29Z)
Sparse Feature Selection Makes Batch Reinforcement Learning More Sample Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文参考訳（メタデータ） (2020-11-08T16:48:02Z)
Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文参考訳（メタデータ） (2020-10-21T13:43:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。