論文の概要: ROER: Regularized Optimal Experience Replay
- arxiv url: http://arxiv.org/abs/2407.03995v1
- Date: Thu, 4 Jul 2024 15:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 17:33:44.108758
- Title: ROER: Regularized Optimal Experience Replay
- Title(参考訳): ROER: 正規化された最適体験リプレイ
- Authors: Changling Li, Zhang-Wei Hong, Pulkit Agrawal, Divyansh Garg, Joni Pajarinen,
- Abstract要約: 優先経験リプレイ(PER)は、時間差(TD)誤差によって経験を過度に再現する。
経験優先化と占有最適化の関連性を示す。
正規化された最適体験再生(ROER)は、難易度の高いAntmaze環境において顕著な改善を実現する。
- 参考スコア(独自算出の注目度): 34.462315999611256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experience replay serves as a key component in the success of online reinforcement learning (RL). Prioritized experience replay (PER) reweights experiences by the temporal difference (TD) error empirically enhancing the performance. However, few works have explored the motivation of using TD error. In this work, we provide an alternative perspective on TD-error-based reweighting. We show the connections between the experience prioritization and occupancy optimization. By using a regularized RL objective with $f-$divergence regularizer and employing its dual form, we show that an optimal solution to the objective is obtained by shifting the distribution of off-policy data in the replay buffer towards the on-policy optimal distribution using TD-error-based occupancy ratios. Our derivation results in a new pipeline of TD error prioritization. We specifically explore the KL divergence as the regularizer and obtain a new form of prioritization scheme, the regularized optimal experience replay (ROER). We evaluate the proposed prioritization scheme with the Soft Actor-Critic (SAC) algorithm in continuous control MuJoCo and DM Control benchmark tasks where our proposed scheme outperforms baselines in 6 out of 11 tasks while the results of the rest match with or do not deviate far from the baselines. Further, using pretraining, ROER achieves noticeable improvement on difficult Antmaze environment where baselines fail, showing applicability to offline-to-online fine-tuning. Code is available at \url{https://github.com/XavierChanglingLi/Regularized-Optimal-Experience-Replay}.
- Abstract(参考訳): 経験的リプレイは、オンライン強化学習(RL)の成功の鍵となる要素である。
優先経験リプレイ(PER)は、時間差(TD)誤差による経験を経験的に向上させる。
しかし、TDエラーを使用する動機を探る研究はほとんどない。
本研究は、TDエラーに基づく再重み付けに関する別の視点を提供する。
経験優先化と占有最適化の関連性を示す。
正規化 RL と$f-$divergence regularizer を併用し、その双対形式を用いることで、TD-error-based occupancy ratios を用いて、リプレイバッファ内のオフポリティデータの分布をオンポリティの最適分布にシフトさせることにより、目的に対する最適解が得られることを示す。
我々の導出は、新しいTDエラー優先順位付けのパイプラインをもたらす。
具体的には、KLの発散を正規化要因として探索し、新たな優先順位付け方式、正規化最適体験再生(ROER)を得る。
提案手法は,11タスク中6タスクでベースラインを上回り,残りのタスクの結果がベースラインと一致しているか,逸脱しないかを,連続制御の MuJoCo と DM Control のベンチマークタスクにおいて,Soft Actor-Critic (SAC) アルゴリズムを用いて優先順位付け方式を評価する。
さらに、ROERは事前トレーニングを用いることで、ベースラインが失敗する難易度の高いAntmaze環境において顕著な改善を実現し、オフラインからオンラインへの微調整の適用性を示す。
コードは \url{https://github.com/XavierChanglingLi/Regularized-Optimal-Experience-Replay} で公開されている。
関連論文リスト
- Investigating the Interplay of Prioritized Replay and Generalization [23.248982121562985]
本稿では,TD誤差に比例してサンプリングを行う優先経験再生(PER)について検討する。
PERは動的プログラミングにおける優先順位付けされたスイーピングの成功にインスパイアされている。
論文 参考訳(メタデータ) (2024-07-12T21:56:24Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文 参考訳(メタデータ) (2023-11-24T10:14:05Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - MAC-PO: Multi-Agent Experience Replay via Collective Priority
Optimization [12.473095790918347]
マルチエージェント問題に対する最適優先体験再生を定式化する名前を提案する。
結果として生じた政策の後悔を最小限にすることで、現在の政策と明確な最適政策とのギャップを狭めることができる。
論文 参考訳(メタデータ) (2023-02-21T03:11:21Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z) - Regret Minimization Experience Replay [14.233842517210437]
優先サンプリングはRL剤の性能を向上させるための有望な手法である。
本研究では,rl政策の後悔を最小限に抑える最適な優先順位付け戦略を理論的に分析する。
RM-DisCorとRM-TCEの2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-15T16:08:45Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。