Fugu-MT 論文翻訳(概要): SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores

論文の概要: SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores

arxiv url: http://arxiv.org/abs/2306.16688v3
Date: Fri, 21 Jun 2024 08:02:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-24 20:37:28.590255
Title: SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores
Title（参考訳）: SRL: 分散強化学習を10万コア以上に拡張
Authors: Zhiyu Mei, Wei Fu, Jiaxuan Gao, Guangju Wang, Huanchen Zhang, Yi Wu,
Abstract要約: 本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。 SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
参考スコア（独自算出の注目度）: 13.948640763797776
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ever-growing complexity of reinforcement learning (RL) tasks demands a distributed system to efficiently generate and process a massive amount of data. However, existing open-source libraries suffer from various limitations, which impede their practical use in challenging scenarios where large-scale training is necessary. In this paper, we present a novel abstraction on the dataflows of RL training, which unifies diverse RL training applications into a general framework. Following this abstraction, we develop a scalable, efficient, and extensible distributed RL system called ReaLlyScalableRL, which allows efficient and massively parallelized training and easy development of customized algorithms. Our evaluation shows that SRL outperforms existing academic libraries, reaching at most 21x higher training throughput in a distributed setting. On learning performance, beyond performing and scaling well on common RL benchmarks with different RL algorithms, SRL can reproduce the same solution in the challenging hide-and-seek environment as reported by OpenAI with up to 5x speedup in wall-clock time. Notably, SRL is the first in the academic community to perform RL experiments at a large scale with over 15k CPU cores. SRL source code is available at: https://github.com/openpsi-project/srl .
Abstract（参考訳）: 強化学習(RL)タスクの継続的な複雑さは、分散システムに大量のデータを効率的に生成し、処理することを要求する。しかし、既存のオープンソースライブラリは様々な制限に悩まされており、大規模なトレーニングが必要な挑戦的なシナリオでの実践を妨げている。本稿では,多様なRLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。この抽象化に続いて,ReaLlyScalableRLと呼ばれる,スケーラブルで効率的で拡張可能な分散RLシステムの開発を行った。評価の結果,SRLは既存の学術図書館より優れており,分散環境ではトレーニングのスループットが21倍に向上していることがわかった。 SRLは、異なるRLアルゴリズムで一般的なRLベンチマークのパフォーマンスとスケーリングに留まらず、OpenAIが報告したように、挑戦的なシーク・アンド・シークな環境で同じソリューションを再現し、ウォールタイムで最大5倍のスピードアップを実現している。特に、SRLは15k以上のCPUコアを持つ大規模なRL実験を学術コミュニティで初めて実施している。 SRLのソースコードは、https://github.com/openpsi-project/srl で入手できる。

関連論文リスト

RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。 RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文参考訳（メタデータ） (2025-10-22T04:19:37Z)
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs [80.76334908639745]
大規模言語モデル(LLM)のための量子化強化学習フレームワークQeRLを提案する。 QeRLは、NVFP4量子化とローランド適応(LoRA)を組み合わせた問題に対処する。実験によると、QeRLはロールアウトフェーズで1.5倍以上のスピードアップを実現している。
論文参考訳（メタデータ） (2025-10-13T17:55:09Z)
Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels [96.35283762778137]
我々は、強化学習のためのスケーラブルなデータエンジンであるWebscale-RLパイプラインを紹介した。 9ドメイン以上にわたる120万のサンプルを含むWebscale-RLデータセットを構築した。我々の研究は、RLを事前学習レベルに拡張するための実行可能なパスを示し、より有能で効率的な言語モデルを可能にします。
論文参考訳（メタデータ） (2025-10-07T22:30:59Z)
MindSpeed RL: Distributed Dataflow for Scalable and Efficient RL Training on Ascend NPU Cluster [6.589537564035392]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルの整合化にますます用いられるパラダイムである。本稿では,大規模RL学習のための効果的かつ効率的なシステムであるMindSpeed RLを紹介する。
論文参考訳（メタデータ） (2025-07-25T07:11:49Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
Open RL Benchmark: Comprehensive Tracked Experiments for Reinforcement Learning [41.971465819626005]
我々は、完全に追跡されたRL実験のセットであるOpen RL Benchmarkを紹介する。 Open RL Benchmarkはコミュニティ主導で、誰でもダウンロード、使用、データへのコントリビューションが可能です。それぞれの実験が正確に再現可能であることを保証するため、特別に注意が払われる。
論文参考訳（メタデータ） (2024-02-05T14:32:00Z)
RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark [69.19502244910632]
深部強化学習(RL)は、最適化(CO)問題を解く上で大きな利点を示している。 RL4COは,23の最先端メソッドと20以上のCO問題を含む,詳細なライブラリカバレッジを備えた統一ベンチマークである。効率的なソフトウェアライブラリと実装のベストプラクティスに基づいて構築されたRL4COは、モジュール化された実装と、多様なRLアルゴリズム、ニューラルネットワークアーキテクチャ、推論技術、環境の柔軟な構成を備えている。
論文参考訳（メタデータ） (2023-06-29T16:57:22Z)
MSRL: Distributed Reinforcement Learning with Dataflow Fragments [16.867322708270116]
強化学習(RL)は多くのエージェントを訓練するが、リソース集約であり、大規模なGPUクラスタにスケールする必要がある。我々は,分散RL学習システムであるMindSpore Reinforcement Learning (MSRL)について述べる。 MSRLは、RLアルゴリズムのトレーニングループから並列計算フラグメントに関数をマッピングする、断片化されたデータフローグラフの新たな抽象化を導入している。
論文参考訳（メタデータ） (2022-10-03T12:34:58Z)
LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文参考訳（メタデータ） (2022-09-21T13:21:00Z)
ShinRL: A Library for Evaluating RL Algorithms from Theoretical and Practical Perspectives [11.675763847424786]
本稿では、強化学習(RL)アルゴリズムを評価するためのオープンソースのライブラリであるShinRLを紹介する。 ShinRLは、RLアルゴリズムの振る舞いを掘り下げるためのメトリクスを計算することができるRL環境インターフェースを提供する。 ShinRLのこれらの2つの特徴を組み合わせることで、深層Q学習の振る舞いをより容易に分析できることを示す。
論文参考訳（メタデータ） (2021-12-08T05:34:46Z)
RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文参考訳（メタデータ） (2021-06-04T03:08:43Z)
RL-Scope: Cross-Stack Profiling for Deep Reinforcement Learning Workloads [4.575381867242508]
RL-Scopeは、低レベルのCPU/GPUリソース使用量を高レベルのアルゴリズム操作にスコープするクロススタックプロファイラである。本稿では,RL-Scopeの実用性について,詳細なケーススタディを通して紹介する。
論文参考訳（メタデータ） (2021-02-08T15:42:48Z)
RLlib Flow: Distributed Reinforcement Learning is a Dataflow Problem [37.38316954355031]
分散強化学習による課題を再検討する。本稿では,RLをデータフロー問題と見なすと,構成性が高く,性能も高い実装が得られることを示す。分散RLのためのハイブリッドアクターデータフローモデルであるRLlib Flowを提案する。
論文参考訳（メタデータ） (2020-11-25T13:28:16Z)
Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。現在の最先端の手法に匹敵する幅と精度を実現している。
論文参考訳（メタデータ） (2020-07-09T13:06:07Z)
MushroomRL: Simplifying Reinforcement Learning Research [60.70556446270147]
MushroomRLはオープンソースのPythonライブラリで、強化学習(RL)実験の実装と実行を簡単にするために開発された。他の利用可能なライブラリと比較して、MushroomRLは、新しいRL方法論の実装とテストの労力を最小限に抑えるために、包括的で柔軟なフレームワークを提供することを目的として作られた。
論文参考訳（メタデータ） (2020-01-04T17:23:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。