論文の概要: Decaying Clipping Range in Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2102.10456v1
- Date: Sat, 20 Feb 2021 22:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 07:26:48.729705
- Title: Decaying Clipping Range in Proximal Policy Optimization
- Title(参考訳): 近位政策最適化における減衰クリッピング範囲
- Authors: M\'onika Farsang and Luca Szegletes
- Abstract要約: PPO(Proximal Policy Optimization)は、強化学習で最も広く使用されているアルゴリズムの1つです。
その成功の鍵は、クリッピングメカニズムによる信頼できるポリシー更新と、ミニバッチ更新の複数のエポックである。
トレーニング全体を通して線形および指数関数的に減衰するクリッピング範囲のアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proximal Policy Optimization (PPO) is among the most widely used algorithms
in reinforcement learning, which achieves state-of-the-art performance in many
challenging problems. The keys to its success are the reliable policy updates
through the clipping mechanism and the multiple epochs of minibatch updates.
The aim of this research is to give new simple but effective alternatives to
the former. For this, we propose linearly and exponentially decaying clipping
range approaches throughout the training. With these, we would like to provide
higher exploration at the beginning and stronger restrictions at the end of the
learning phase. We investigate their performance in several classical control
and locomotive robotic environments. During the analysis, we found that they
influence the achieved rewards and are effective alternatives to the constant
clipping method in many reinforcement learning tasks.
- Abstract(参考訳): PPO(Proximal Policy Optimization)は、強化学習において最も広く使用されているアルゴリズムの1つです。
その成功の鍵は、クリッピングメカニズムによる信頼できるポリシー更新と、ミニバッチ更新の複数のエポックである。
この研究の目的は、新しいシンプルで効果的な代替手段を提供することです。
そこで本研究では,訓練中,直線的かつ指数関数的に縮小するクリップング範囲アプローチを提案する。
これらにより、学習フェーズの終わりに、始めにより高い探索とより強い制限を提供したいと考えています。
我々は,いくつかの古典的制御と機関車ロボット環境における性能について検討した。
分析の結果,多くの強化学習タスクにおいて,達成した報酬に影響を与え,一定のクリッピング法に代わる有効な方法であることが判明した。
関連論文リスト
- Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Learning Diverse Policies with Soft Self-Generated Guidance [2.9602904918952695]
非ゼロ報酬がほとんど得られないため、スパースと偽りの報酬による強化学習は困難である。
本稿では,より高速で効率的なオンラインRLを実現するために,多種多様な過去の軌跡を利用する手法を開発した。
論文 参考訳(メタデータ) (2024-02-07T02:53:50Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - SkillS: Adaptive Skill Sequencing for Efficient Temporally-Extended
Exploration [21.764280583041703]
スキルの再利用は最も一般的なアプローチの1つだが、現在の手法にはかなりの制限がある。
これらの問題を緩和するための代替アプローチを導入する。
提案手法は,既存の時間的拡張スキルの探索を学習するが,生経験から直接最終方針を学習する。
論文 参考訳(メタデータ) (2022-11-24T18:05:01Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。