論文の概要: RLlib Flow: Distributed Reinforcement Learning is a Dataflow Problem
- arxiv url: http://arxiv.org/abs/2011.12719v4
- Date: Thu, 28 Oct 2021 18:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 03:47:32.886534
- Title: RLlib Flow: Distributed Reinforcement Learning is a Dataflow Problem
- Title(参考訳): RLlib Flow: 分散強化学習はデータフローの問題である
- Authors: Eric Liang, Zhanghao Wu, Michael Luo, Sven Mika, Joseph E. Gonzalez,
Ion Stoica
- Abstract要約: 分散強化学習による課題を再検討する。
本稿では,RLをデータフロー問題と見なすと,構成性が高く,性能も高い実装が得られることを示す。
分散RLのためのハイブリッドアクターデータフローモデルであるRLlib Flowを提案する。
- 参考スコア(独自算出の注目度): 37.38316954355031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers and practitioners in the field of reinforcement learning (RL)
frequently leverage parallel computation, which has led to a plethora of new
algorithms and systems in the last few years. In this paper, we re-examine the
challenges posed by distributed RL and try to view it through the lens of an
old idea: distributed dataflow. We show that viewing RL as a dataflow problem
leads to highly composable and performant implementations. We propose RLlib
Flow, a hybrid actor-dataflow programming model for distributed RL, and
validate its practicality by porting the full suite of algorithms in RLlib, a
widely adopted distributed RL library. Concretely, RLlib Flow provides 2-9 code
savings in real production code and enables the composition of multi-agent
algorithms not possible by end users before. The open-source code is available
as part of RLlib at https://github.com/ray-project/ray/tree/master/rllib.
- Abstract(参考訳): 強化学習(RL)分野の研究者や実践者は並列計算を頻繁に利用しており、ここ数年で多くの新しいアルゴリズムやシステムを生み出している。
本稿では、分散RLがもたらす課題を再検討し、従来のアイデアである分散データフローのレンズを通してそれを見ることを試みる。
本稿では,RLをデータフロー問題と見なすと,構成性が高く,性能も高い実装が得られることを示す。
本稿では,分散rlのためのアクターとデータフローのハイブリッドプログラミングモデルであるrllib flowを提案し,広く採用されている分散rlライブラリであるrllibにアルゴリズムの完全なスイートを移植することにより,その実用性を検証する。
具体的には、rllib flowは実運用コードで2-9のコードセーブを提供し、複数のエージェントアルゴリズムをコンポジションできる。
オープンソースのコードは rllib at https://github.com/ray-project/ray/tree/master/rllib.org で利用可能である。
関連論文リスト
- RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。
RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。
教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:50:39Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - MSRL: Distributed Reinforcement Learning with Dataflow Fragments [16.867322708270116]
強化学習(RL)は多くのエージェントを訓練するが、リソース集約であり、大規模なGPUクラスタにスケールする必要がある。
我々は,分散RL学習システムであるMindSpore Reinforcement Learning (MSRL)について述べる。
MSRLは、RLアルゴリズムのトレーニングループから並列計算フラグメントに関数をマッピングする、断片化されたデータフローグラフの新たな抽象化を導入している。
論文 参考訳(メタデータ) (2022-10-03T12:34:58Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - ShinRL: A Library for Evaluating RL Algorithms from Theoretical and
Practical Perspectives [11.675763847424786]
本稿では、強化学習(RL)アルゴリズムを評価するためのオープンソースのライブラリであるShinRLを紹介する。
ShinRLは、RLアルゴリズムの振る舞いを掘り下げるためのメトリクスを計算することができるRL環境インターフェースを提供する。
ShinRLのこれらの2つの特徴を組み合わせることで、深層Q学習の振る舞いをより容易に分析できることを示す。
論文 参考訳(メタデータ) (2021-12-08T05:34:46Z) - Recurrent Model-Free RL is a Strong Baseline for Many POMDPs [73.39666827525782]
メタRL、ロバストRL、RLの一般化など、RLの多くの問題はPOMDPとしてキャストできる。
理論上は、リカレントニューラルネットワークなどのメモリによるモデルフリーRLの増大は、あらゆるタイプのPOMDPを解決するための一般的なアプローチを提供する。
以前の研究で、そのような繰り返しモデルなしのRL法は、特定のタイプのPOMDP向けに設計された、より特殊なアルゴリズムよりもパフォーマンスが悪くなっていることが判明した。
論文 参考訳(メタデータ) (2021-10-11T07:09:14Z) - RL-Scope: Cross-Stack Profiling for Deep Reinforcement Learning
Workloads [4.575381867242508]
RL-Scopeは、低レベルのCPU/GPUリソース使用量を高レベルのアルゴリズム操作にスコープするクロススタックプロファイラである。
本稿では,RL-Scopeの実用性について,詳細なケーススタディを通して紹介する。
論文 参考訳(メタデータ) (2021-02-08T15:42:48Z) - MushroomRL: Simplifying Reinforcement Learning Research [60.70556446270147]
MushroomRLはオープンソースのPythonライブラリで、強化学習(RL)実験の実装と実行を簡単にするために開発された。
他の利用可能なライブラリと比較して、MushroomRLは、新しいRL方法論の実装とテストの労力を最小限に抑えるために、包括的で柔軟なフレームワークを提供することを目的として作られた。
論文 参考訳(メタデータ) (2020-01-04T17:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。