論文の概要: Cleanba: A Reproducible and Efficient Distributed Reinforcement Learning
Platform
- arxiv url: http://arxiv.org/abs/2310.00036v1
- Date: Fri, 29 Sep 2023 17:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 07:03:16.637259
- Title: Cleanba: A Reproducible and Efficient Distributed Reinforcement Learning
Platform
- Title(参考訳): Cleanba: 再現可能で効率的な分散強化学習プラットフォーム
- Authors: Shengyi Huang, Jiayi Weng, Rujikorn Charakorn, Min Lin, Zhongwen Xu,
Santiago Onta\~n\'on
- Abstract要約: Cleanbaは、分散Deep Reinforcement Learningのための新しいオープンソースプラットフォームである。
Cleanbaは高度に最適化された分散PPOとIMPALAを実装している。
クリーンバ変種は,1) トレーニング時間を短縮し,2) 異なるハードウェア設定で再現可能な学習曲線を向上する。
- 参考スコア(独自算出の注目度): 16.84463673288695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed Deep Reinforcement Learning (DRL) aims to leverage more
computational resources to train autonomous agents with less training time.
Despite recent progress in the field, reproducibility issues have not been
sufficiently explored. This paper first shows that the typical actor-learner
framework can have reproducibility issues even if hyperparameters are
controlled. We then introduce Cleanba, a new open-source platform for
distributed DRL that proposes a highly reproducible architecture. Cleanba
implements highly optimized distributed variants of PPO and IMPALA. Our Atari
experiments show that these variants can obtain equivalent or higher scores
than strong IMPALA baselines in moolib and torchbeast and PPO baseline in
CleanRL. However, Cleanba variants present 1) shorter training time and 2) more
reproducible learning curves in different hardware settings. Cleanba's source
code is available at \url{https://github.com/vwxyzjn/cleanba}
- Abstract(参考訳): 分散深層強化学習(DRL)は、より多くの計算資源を活用して、訓練時間の少ない自律エージェントを訓練することを目的としている。
近年の進歩にもかかわらず、再現性の問題はまだ十分に検討されていない。
本稿では,ハイパーパラメータが制御されている場合でも,アクタ・リアナーフレームワークの再現性に問題があることを示す。
次に、高度に再現可能なアーキテクチャを提案する分散DRLのための新しいオープンソースプラットフォームであるCleanbaを紹介します。
Cleanbaは高度に最適化された分散PPOとIMPALAを実装している。
Atari実験により,これらの変種はモオリブおよびトルチビーストの強いIMPALAベースラインとクリーンRLのPPOベースラインより同等あるいは高いスコアが得られることが示された。
しかし クリーンバの変種は
1)訓練期間の短縮
2) 異なるハードウェア設定での再現性が高い学習曲線。
cleanbaのソースコードは \url{https://github.com/vwxyzjn/cleanba} で入手できる。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
REBELは、生成モデルの時代における最小限のRLアルゴリズムである。
政策最適化の問題を、直接的な政策パラメータ化による相対報酬の回帰に還元する。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models [13.313186665410486]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文 参考訳(メタデータ) (2024-02-13T18:58:16Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Learning to Optimize for Reinforcement Learning [79.03249959636776]
ゼロから強化学習を行うエージェントを学習することは可能であることを示す。
おもちゃのタスクでしか訓練されないが、我々の学習はブラックスの複雑なタスクに一般化することができる。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Learnable Distribution Calibration for Few-Shot Class-Incremental
Learning [122.2241120474278]
FSCIL(Few-shot class-incremental Learning)は、古いクラス分布を記憶し、少数のトレーニングサンプルから新しいクラス分布を推定するという課題に直面している。
本稿では,これら2つの課題を統一フレームワークを用いて体系的に解決することを目的とした,学習可能な分布校正手法を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:40:26Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Recurrent Model-Free RL is a Strong Baseline for Many POMDPs [73.39666827525782]
メタRL、ロバストRL、RLの一般化など、RLの多くの問題はPOMDPとしてキャストできる。
理論上は、リカレントニューラルネットワークなどのメモリによるモデルフリーRLの増大は、あらゆるタイプのPOMDPを解決するための一般的なアプローチを提供する。
以前の研究で、そのような繰り返しモデルなしのRL法は、特定のタイプのPOMDP向けに設計された、より特殊なアルゴリズムよりもパフォーマンスが悪くなっていることが判明した。
論文 参考訳(メタデータ) (2021-10-11T07:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。