論文の概要: SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand
Cores
- arxiv url: http://arxiv.org/abs/2306.16688v2
- Date: Wed, 5 Jul 2023 08:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 19:54:46.846900
- Title: SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand
Cores
- Title(参考訳): SRL: 分散強化学習を10万コア以上に拡張
- Authors: Zhiyu Mei, Wei Fu, Guangju Wang, Huanchen Zhang, Yi Wu
- Abstract要約: 本稿では,多種多様なアプリケーションを対象とした実践的RLトレーニングを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的な分散RLシステムReaLly Scalable RL(SRL)を開発した。
SRLは、そのような大規模なRL実験を行った最初の学術コミュニティである。
- 参考スコア(独自算出の注目度): 11.311766565113922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ever-growing complexity of reinforcement learning (RL) tasks demands a
distributed RL system to efficiently generate and process a massive amount of
data to train intelligent agents. However, existing open-source libraries
suffer from various limitations, which impede their practical use in
challenging scenarios where large-scale training is necessary. While industrial
systems from OpenAI and DeepMind have achieved successful large-scale RL
training, their system architecture and implementation details remain
undisclosed to the community. In this paper, we present a novel abstraction on
the dataflows of RL training, which unifies practical RL training across
diverse applications into a general framework and enables fine-grained
optimizations. Following this abstraction, we develop a scalable, efficient,
and extensible distributed RL system called ReaLly Scalable RL (SRL). The
system architecture of SRL separates major RL computation components and allows
massively parallelized training. Moreover, SRL offers user-friendly and
extensible interfaces for customized algorithms. Our evaluation shows that SRL
outperforms existing academic libraries in both a single machine and a
medium-sized cluster. In a large-scale cluster, the novel architecture of SRL
leads to up to 3.7x speedup compared to the design choices adopted by the
existing libraries. We also conduct a direct benchmark comparison to OpenAI's
industrial system, Rapid, in the challenging hide-and-seek environment. SRL
reproduces the same solution as reported by OpenAI with up to 5x speedup in
wall-clock time. Furthermore, we also examine the performance of SRL in a much
harder variant of the hide-and-seek environment and achieve substantial
learning speedup by scaling SRL to over 15k CPU cores and 32 A100 GPUs.
Notably, SRL is the first in the academic community to perform RL experiments
at such a large scale.
- Abstract(参考訳): 強化学習(RL)タスクの継続的な複雑化により、分散RLシステムは、インテリジェントエージェントを訓練するために大量のデータを効率的に生成し、処理する必要がある。
しかし、既存のオープンソースライブラリにはさまざまな制限があり、大規模なトレーニングが必要な困難なシナリオでの使用を妨げている。
OpenAIとDeepMindの産業システムは大規模なRLトレーニングを成功させたが、システムアーキテクチャと実装の詳細はコミュニティに開示されていない。
本稿では,多種多様なアプリケーションにまたがる実践的RLトレーニングを汎用フレームワークに統一し,詳細な最適化を可能にするRLトレーニングのデータフローに関する新しい抽象化を提案する。
この抽象化に続いて,ReaLly Scalable RL (SRL) と呼ばれるスケーラブルで効率的で拡張可能な分散RLシステムを開発した。
SRLのシステムアーキテクチャは、主要なRL計算コンポーネントを分離し、大規模並列化トレーニングを可能にする。
さらにSRLは、カスタマイズされたアルゴリズムのためのユーザフレンドリーで拡張可能なインターフェースを提供する。
評価の結果,SRLは単一マシンと中規模クラスタの両方で既存の学術図書館よりも優れていた。
大規模なクラスタでは、SRLの新しいアーキテクチャは、既存のライブラリで採用されている設計選択と比較して最大3.7倍のスピードアップをもたらす。
また,openai の産業システムであるrapid との直接ベンチマーク比較を行った。
SRLはOpenAIが報告したのと同じソリューションを、ウォールタイムで最大5倍のスピードアップで再現する。
さらに,SRLを15k以上のCPUコアと32のA100 GPUにスケールアップすることにより,隠れ・探究環境におけるSRLの性能を著しく向上させる。
特に、SRLは、そのような大規模なRL実験を行った最初の学術コミュニティである。
関連論文リスト
- ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Open RL Benchmark: Comprehensive Tracked Experiments for Reinforcement
Learning [41.971465819626005]
我々は、完全に追跡されたRL実験のセットであるOpen RL Benchmarkを紹介する。
Open RL Benchmarkはコミュニティ主導で、誰でもダウンロード、使用、データへのコントリビューションが可能です。
それぞれの実験が正確に再現可能であることを保証するため、特別に注意が払われる。
論文 参考訳(メタデータ) (2024-02-05T14:32:00Z) - RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark [69.19502244910632]
深部強化学習(RL)は、最適化(CO)問題を解く上で大きな利点を示している。
RL4COは,23の最先端メソッドと20以上のCO問題を含む,詳細なライブラリカバレッジを備えた統一ベンチマークである。
効率的なソフトウェアライブラリと実装のベストプラクティスに基づいて構築されたRL4COは、モジュール化された実装と、多様なRLアルゴリズム、ニューラルネットワークアーキテクチャ、推論技術、環境の柔軟な構成を備えている。
論文 参考訳(メタデータ) (2023-06-29T16:57:22Z) - MSRL: Distributed Reinforcement Learning with Dataflow Fragments [16.867322708270116]
強化学習(RL)は多くのエージェントを訓練するが、リソース集約であり、大規模なGPUクラスタにスケールする必要がある。
我々は,分散RL学習システムであるMindSpore Reinforcement Learning (MSRL)について述べる。
MSRLは、RLアルゴリズムのトレーニングループから並列計算フラグメントに関数をマッピングする、断片化されたデータフローグラフの新たな抽象化を導入している。
論文 参考訳(メタデータ) (2022-10-03T12:34:58Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - ShinRL: A Library for Evaluating RL Algorithms from Theoretical and
Practical Perspectives [11.675763847424786]
本稿では、強化学習(RL)アルゴリズムを評価するためのオープンソースのライブラリであるShinRLを紹介する。
ShinRLは、RLアルゴリズムの振る舞いを掘り下げるためのメトリクスを計算することができるRL環境インターフェースを提供する。
ShinRLのこれらの2つの特徴を組み合わせることで、深層Q学習の振る舞いをより容易に分析できることを示す。
論文 参考訳(メタデータ) (2021-12-08T05:34:46Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - RL-Scope: Cross-Stack Profiling for Deep Reinforcement Learning
Workloads [4.575381867242508]
RL-Scopeは、低レベルのCPU/GPUリソース使用量を高レベルのアルゴリズム操作にスコープするクロススタックプロファイラである。
本稿では,RL-Scopeの実用性について,詳細なケーススタディを通して紹介する。
論文 参考訳(メタデータ) (2021-02-08T15:42:48Z) - RLlib Flow: Distributed Reinforcement Learning is a Dataflow Problem [37.38316954355031]
分散強化学習による課題を再検討する。
本稿では,RLをデータフロー問題と見なすと,構成性が高く,性能も高い実装が得られることを示す。
分散RLのためのハイブリッドアクターデータフローモデルであるRLlib Flowを提案する。
論文 参考訳(メタデータ) (2020-11-25T13:28:16Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z) - MushroomRL: Simplifying Reinforcement Learning Research [60.70556446270147]
MushroomRLはオープンソースのPythonライブラリで、強化学習(RL)実験の実装と実行を簡単にするために開発された。
他の利用可能なライブラリと比較して、MushroomRLは、新しいRL方法論の実装とテストの労力を最小限に抑えるために、包括的で柔軟なフレームワークを提供することを目的として作られた。
論文 参考訳(メタデータ) (2020-01-04T17:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。