論文の概要: Colored Noise in PPO: Improved Exploration and Performance through Correlated Action Sampling
- arxiv url: http://arxiv.org/abs/2312.11091v2
- Date: Mon, 17 Jun 2024 14:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 07:14:24.201564
- Title: Colored Noise in PPO: Improved Exploration and Performance through Correlated Action Sampling
- Title(参考訳): PPOのカラーノイズ:相関行動サンプリングによる探索と性能の改善
- Authors: Jakob Hollenstein, Georg Martius, Justus Piater,
- Abstract要約: PPO(Proximal Policy Optimization)のカラーノイズに基づくポリシー変種を提案する。
行動選択のための相関ノイズは学習性能を向上し,非相関性のあるホワイトノイズアプローチよりも優れることがわかった。
PPOのデフォルトノイズ源として相関ノイズへの切り替えを推奨する。
- 参考スコア(独自算出の注目度): 21.27425060140359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proximal Policy Optimization (PPO), a popular on-policy deep reinforcement learning method, employs a stochastic policy for exploration. In this paper, we propose a colored noise-based stochastic policy variant of PPO. Previous research highlighted the importance of temporal correlation in action noise for effective exploration in off-policy reinforcement learning. Building on this, we investigate whether correlated noise can also enhance exploration in on-policy methods like PPO. We discovered that correlated noise for action selection improves learning performance and outperforms the currently popular uncorrelated white noise approach in on-policy methods. Unlike off-policy learning, where pink noise was found to be highly effective, we found that a colored noise, intermediate between white and pink, performed best for on-policy learning in PPO. We examined the impact of varying the amount of data collected for each update by modifying the number of parallel simulation environments for data collection and observed that with a larger number of parallel environments, more strongly correlated noise is beneficial. Due to the significant impact and ease of implementation, we recommend switching to correlated noise as the default noise source in PPO.
- Abstract(参考訳): PPO(Proximal Policy Optimization, Proximal Policy Optimization)は、政治の深い強化学習手法であり、探索に確率的政策を用いる。
本稿では,色付き雑音に基づくPPOの確率的ポリシー変種を提案する。
従来の研究では、活動雑音における時間的相関の重要性を強調して、非政治強化学習における効果的な探索を行った。
そこで本研究では,PPOのような政治手法においても,相関ノイズが探索を促進できるかどうかを考察する。
行動選択のための相関ノイズは学習性能を向上し,現在普及している非相関性ホワイトノイズ手法よりも優れることがわかった。
ピンクノイズが有効であることが判明した非政治学習とは異なり、色付きノイズは白とピンクの中間であり、PPOのオンライン学習に最適であることがわかった。
我々は,データ収集のための並列シミュレーション環境の数を変更することで,更新毎に収集したデータ量を変化させる影響について検討し,より多くの並列環境において,より強い相関ノイズが有効であることを示した。
実装の大幅な影響と容易さのため、PPOのデフォルトノイズ源として相関ノイズに切り替えることを推奨する。
関連論文リスト
- Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization [45.6430987775264]
本研究は、DPO(Direct Preference Optimization)のためのトレーニングデータセットにおけるノイズの課題に対処する。
ノイズを低品質なデータポイントを含むポイントワイズノイズと、誤ったデータペアアソシエーションを含むペアワイズノイズに分類する。
本稿では、最悪の場合のペアワイズシナリオに対して最適化することで、ペアワイズロバストネスを統合した分散ロバスト化DPOを提案する。
論文 参考訳(メタデータ) (2024-07-10T17:48:25Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - RoLNiP: Robust Learning Using Noisy Pairwise Comparisons [6.624726878647541]
本稿では,ノイズの多いペアワイズ比較から学習するための頑健なアプローチを提案する。
提案手法は,雑音に富んだペアワイド比較による学習において,頑健な最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-04T06:28:08Z) - On the Theoretical Properties of Noise Correlation in Stochastic
Optimization [6.970991851511823]
PGDとアンチPGDに比較して,fPGDは探索能力を有することを示す。
これらの結果は、機械学習モデルにノイズを利用する新しい方法へとフィールドを開放する。
論文 参考訳(メタデータ) (2022-09-19T16:32:22Z) - Action Noise in Off-Policy Deep Reinforcement Learning: Impact on
Exploration and Performance [5.573543601558405]
我々は,学習方針が騒音タイプ,騒音スケール,影響スケーリング要因の低減スケジュールにどのように影響するかを分析する。
我々は、Ornstein-Uhlenbeckノイズという、最も顕著な2種類のアクションノイズについて検討し、膨大な実験運動を行う。
本研究は, 騒音の種類と規模が環境依存であることを示すとともに, 行動雑音の選択を導くためのルールを導出する。
論文 参考訳(メタデータ) (2022-06-08T10:06:24Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z) - Neighborhood Mixup Experience Replay: Local Convex Interpolation for
Improved Sample Efficiency in Continuous Control Tasks [60.88792564390274]
Neighborhood Mixup Experience Replay (NMER) は、状態-作用空間における遷移を補間する幾何学的に接地されたリプレイバッファである。
NMERは,ベースライン再生バッファ上で平均94%(TD3)と29%(SAC)のサンプリング効率を向上する。
論文 参考訳(メタデータ) (2022-05-18T02:44:08Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - On Dynamic Noise Influence in Differentially Private Learning [102.6791870228147]
Private Gradient Descent (PGD)は一般的に使用されるプライベート学習フレームワークであり、差分プロトコルに基づいてノイズを発生する。
最近の研究では、emphdynamic privacy schedulesは最終イテレーションで改善できるが、そのようなスケジュールの有効性の理論は限られている。
本稿では,これらの重要な質問に答えるために,動的プライバシスケジュールにおけるノイズの影響を総合的に分析する。
論文 参考訳(メタデータ) (2021-01-19T02:04:00Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。