論文の概要: ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.05923v1
- Date: Sat, 11 Dec 2021 06:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 15:48:57.330844
- Title: ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning
- Title(参考訳): ElegantRL-Podracer: クラウドネイティブな深層強化学習のためのスケーラブルで柔軟なライブラリ
- Authors: Xiao-Yang Liu and Zechu Li and Zhuoran Yang and Jiahao Zheng and
Zhaoran Wang and Anwar Walid and Jian Guo and Michael I. Jordan
- Abstract要約: クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
- 参考スコア(独自算出の注目度): 141.58588761593955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has revolutionized learning and actuation
in applications such as game playing and robotic control. The cost of data
collection, i.e., generating transitions from agent-environment interactions,
remains a major challenge for wider DRL adoption in complex real-world
problems. Following a cloud-native paradigm to train DRL agents on a GPU cloud
platform is a promising solution. In this paper, we present a scalable and
elastic library ElegantRL-podracer for cloud-native deep reinforcement
learning, which efficiently supports millions of GPU cores to carry out
massively parallel training at multiple levels. At a high-level,
ElegantRL-podracer employs a tournament-based ensemble scheme to orchestrate
the training process on hundreds or even thousands of GPUs, scheduling the
interactions between a leaderboard and a training pool with hundreds of pods.
At a low-level, each pod simulates agent-environment interactions in parallel
by fully utilizing nearly 7,000 GPU CUDA cores in a single GPU. Our
ElegantRL-podracer library features high scalability, elasticity and
accessibility by following the development principles of containerization,
microservices and MLOps. Using an NVIDIA DGX SuperPOD cloud, we conduct
extensive experiments on various tasks in locomotion and stock trading and show
that ElegantRL-podracer substantially outperforms RLlib. Our codes are
available on GitHub.
- Abstract(参考訳): 深層強化学習(DRL)は、ゲームプレイやロボット制御などの応用において、学習と動作に革命をもたらした。
データ収集のコスト、すなわちエージェント環境相互作用から遷移を生成することは、複雑な現実世界の問題においてDRLを採用する上で大きな課題である。
GPUクラウドプラットフォーム上でDRLエージェントをトレーニングするクラウドネイティブパラダイムに従うことは、有望なソリューションだ。
本稿では,複数のレベルで大規模並列トレーニングを行うために,数百万のgpuコアを効率的にサポートするクラウドネイティブ深層強化学習のためのスケーラブルで弾力性のあるライブラリeliterl-podracerを提案する。
ハイレベルなeliterl-podracerでは、トーナメントベースのアンサンブルスキームを使用して、数百ないし数千のgpu上でトレーニングプロセスをオーケストレーションし、リーダボードとトレーニングプール間のインタラクションを数百のポッドでスケジューリングする。
低レベルでは、各ポッドは1つのGPUで7,000近いGPU CUDAコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
ElegantRL-podracerライブラリは、コンテナ化、マイクロサービス、MLOpsの開発原則に従うことで、高いスケーラビリティ、弾力性、アクセシビリティを提供します。
NVIDIA DGX SuperPODクラウドを用いて、ロコモーションや株式取引における様々なタスクについて広範な実験を行い、ElegantRL-podracerがRLlibを大幅に上回ることを示す。
私たちのコードはgithubから入手できます。
関連論文リスト
- Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - NAVIX: Scaling MiniGrid Environments with JAX [17.944645332888335]
JAX における MiniGrid の再実装である NAVIX を紹介します。
NAVIXはバッチモードで20000倍以上の速度向上を実現し、Nvidia A100 80 GBで最大2048エージェントを並行してサポートする。
これは実験時間を1週間から15分に短縮し、より高速な設計とよりスケーラブルなRLモデル開発を促進する。
論文 参考訳(メタデータ) (2024-07-28T04:39:18Z) - A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - XuanCe: A Comprehensive and Unified Deep Reinforcement Learning Library [18.603206638756056]
XuanCeは総合的に統合された深層強化学習(DRL)ライブラリである。
XuanCeは40以上の古典DRLとマルチエージェントDRLアルゴリズムを含む幅広い機能を提供している。
XuanCeはオープンソースで、https://agi-brain.com/agi-brain/xuance.gitでアクセスできる。
論文 参考訳(メタデータ) (2023-12-25T14:45:39Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - RLtools: A Fast, Portable Deep Reinforcement Learning Library for
Continuous Control [8.159171440455824]
深層強化学習(Deep Reinforcement Learning, RL)は、複数のドメインで有能なエージェントとコントロールポリシーを得られるが、一般的には、非常に長い訓練時間によって悩まされる。
RLtoolsは依存性のない、ヘッダのみの純粋なC++ライブラリで、深い教師付きと強化学習のためのライブラリである。
論文 参考訳(メタデータ) (2023-06-06T09:26:43Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement
Learning on a GPU [15.337470862838794]
我々は、単一のGPU上でエンドツーエンドのマルチエージェントRLを実装する、柔軟で軽量で使いやすいオープンソースのRLフレームワークであるWarpDriveを紹介します。
我々の設計ではシミュレーションとエージェントを並列に実行し、GPU上に1つのシミュレーションデータストアを配置して安全に更新する。
WarpDriveは、ベンチマークTagシミュレーションにおいて、2000の環境と1000のエージェント(CPU実装と比べて少なくとも100倍高いスループット)で290万の環境ステップ/秒を生成する。
論文 参考訳(メタデータ) (2021-08-31T16:59:27Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。