Fugu-MT 論文翻訳(概要): MSRL: Distributed Reinforcement Learning with Dataflow Fragments

論文の概要: MSRL: Distributed Reinforcement Learning with Dataflow Fragments

arxiv url: http://arxiv.org/abs/2210.00882v1
Date: Mon, 3 Oct 2022 12:34:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 14:33:24.473866
Title: MSRL: Distributed Reinforcement Learning with Dataflow Fragments
Title（参考訳）: MSRL: Dataflow Fragmentsによる分散強化学習
Authors: Huanzhou Zhu, Bo Zhao, Gang Chen, Weifeng Chen, Yijie Chen, Liang Shi, Peter Pietzuch and Lei Chen
Abstract要約: 強化学習(RL)は多くのエージェントを訓練するが、リソース集約であり、大規模なGPUクラスタにスケールする必要がある。我々は,分散RL学習システムであるMindSpore Reinforcement Learning (MSRL)について述べる。 MSRLは、RLアルゴリズムのトレーニングループから並列計算フラグメントに関数をマッピングする、断片化されたデータフローグラフの新たな抽象化を導入している。
参考スコア（独自算出の注目度）: 16.867322708270116
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning~(RL) trains many agents, which is resource-intensive and must scale to large GPU clusters. Different RL training algorithms offer different opportunities for distributing and parallelising the computation. Yet, current distributed RL systems tie the definition of RL algorithms to their distributed execution: they hard-code particular distribution strategies and only accelerate specific parts of the computation (e.g. policy network updates) on GPU workers. Fundamentally, current systems lack abstractions that decouple RL algorithms from their execution. We describe MindSpore Reinforcement Learning (MSRL), a distributed RL training system that supports distribution policies that govern how RL training computation is parallelised and distributed on cluster resources, without requiring changes to the algorithm implementation. MSRL introduces the new abstraction of a fragmented dataflow graph, which maps Python functions from an RL algorithm's training loop to parallel computational fragments. Fragments are executed on different devices by translating them to low-level dataflow representations, e.g. computational graphs as supported by deep learning engines, CUDA implementations or multi-threaded CPU processes. We show that MSRL subsumes the distribution strategies of existing systems, while scaling RL training to 64 GPUs.
Abstract（参考訳）: 強化学習(rl)は、リソース集約的で、大規模なgpuクラスタにスケールアップしなければならない多くのエージェントを訓練する。異なるRLトレーニングアルゴリズムは計算の分散と並列化の異なる機会を提供する。しかし、現在の分散RLシステムは、RLアルゴリズムの定義を分散実行に結び付けている:彼らは特定の分散戦略をハードコードし、GPUワーカー上の計算の特定の部分(例えばポリシーネットワークのアップデート)を加速する。基本的に、現在のシステムはRLアルゴリズムをその実行から切り離す抽象化を欠いている。本稿では,分散rl学習システムであるmindspore reinforcement learning(msrl)について述べる。rlトレーニング計算の並列化とクラスタリソースへの分散を制御し,アルゴリズム実装の変更を必要とせず,分散ポリシーをサポートする。 MSRLでは,Python関数をRLアルゴリズムのトレーニングループから並列計算フラグメントにマッピングする,断片化されたデータフローグラフの新たな抽象化が導入されている。フラグメントは、ディープラーニングエンジンやcuda実装、マルチスレッドcpuプロセスでサポートされている計算グラフなど、低レベルのデータフロー表現に変換することで、異なるデバイス上で実行される。 MSRLは既存のシステムの分散戦略を仮定し、RLトレーニングを64GPUに拡張する。

関連論文リスト

MindSpeed RL: Distributed Dataflow for Scalable and Efficient RL Training on Ascend NPU Cluster [6.589537564035392]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルの整合化にますます用いられるパラダイムである。本稿では,大規模RL学習のための効果的かつ効率的なシステムであるMindSpeed RLを紹介する。
論文参考訳（メタデータ） (2025-07-25T07:11:49Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
Efficient Parallel Reinforcement Learning Framework using the Reactor Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。 Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文参考訳（メタデータ） (2023-12-07T21:19:57Z)
SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。 SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文参考訳（メタデータ） (2023-06-29T05:16:25Z)
RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。 RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文参考訳（メタデータ） (2023-06-28T04:16:16Z)
A Tutorial on Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。 RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文参考訳（メタデータ） (2023-01-19T12:01:41Z)
Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文参考訳（メタデータ） (2022-06-15T14:34:15Z)
Transferred Q-learning [79.79659145328856]
我々は、目標強化学習(RL)タスクのサンプルと、異なるが関連するRLタスクのソースサンプルを用いて、知識伝達を伴うQ$ラーニングについて検討する。オフラインのソーススタディを用いたバッチとオンラインの$Q$ラーニングのためのトランスファー学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-09T20:08:19Z)
ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文参考訳（メタデータ） (2021-12-11T06:31:21Z)
RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文参考訳（メタデータ） (2021-06-04T03:08:43Z)
RL-Scope: Cross-Stack Profiling for Deep Reinforcement Learning Workloads [4.575381867242508]
RL-Scopeは、低レベルのCPU/GPUリソース使用量を高レベルのアルゴリズム操作にスコープするクロススタックプロファイラである。本稿では,RL-Scopeの実用性について,詳細なケーススタディを通して紹介する。
論文参考訳（メタデータ） (2021-02-08T15:42:48Z)
RLlib Flow: Distributed Reinforcement Learning is a Dataflow Problem [37.38316954355031]
分散強化学習による課題を再検討する。本稿では,RLをデータフロー問題と見なすと,構成性が高く,性能も高い実装が得られることを示す。分散RLのためのハイブリッドアクターデータフローモデルであるRLlib Flowを提案する。
論文参考訳（メタデータ） (2020-11-25T13:28:16Z)
RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。 RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文参考訳（メタデータ） (2020-06-24T17:14:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。