論文の概要: Efficient Parallel Reinforcement Learning Framework using the Reactor
Model
- arxiv url: http://arxiv.org/abs/2312.04704v2
- Date: Fri, 2 Feb 2024 19:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 03:42:57.547786
- Title: Efficient Parallel Reinforcement Learning Framework using the Reactor
Model
- Title(参考訳): リアクターモデルを用いた効率的な並列強化学習フレームワーク
- Authors: Jacky Kwok, Marten Lohstroh, Edward A. Lee
- Abstract要約: 強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
- 参考スコア(独自算出の注目度): 2.190190313041532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel Reinforcement Learning (RL) frameworks are essential for mapping RL
workloads to multiple computational resources, allowing for faster generation
of samples, estimation of values, and policy improvement. These computational
paradigms require a seamless integration of training, serving, and simulation
workloads. Existing frameworks, such as Ray, are not managing this
orchestration efficiently, especially in RL tasks that demand intensive
input/output and synchronization between actors on a single node. In this
study, we have proposed a solution implementing the reactor model, which
enforces a set of actors to have a fixed communication pattern. This allows the
scheduler to eliminate work needed for synchronization, such as acquiring and
releasing locks for each actor or sending and processing coordination-related
messages. Our framework, Lingua Franca (LF), a coordination language based on
the reactor model, also supports true parallelism in Python and provides a
unified interface that allows users to automatically generate dataflow graphs
for RL tasks. In comparison to Ray on a single-node multi-core compute
platform, LF achieves 1.21x and 11.62x higher simulation throughput in OpenAI
Gym and Atari environments, reduces the average training time of synchronized
parallel Q-learning by 31.2%, and accelerates multi-agent RL inference by
5.12x.
- Abstract(参考訳): 並列強化学習(rl)フレームワークは、rlワークロードを複数の計算リソースにマッピングするために必須であり、サンプルの生成、値の推定、ポリシーの改善を可能にする。
これらの計算パラダイムは、トレーニング、サービス、シミュレーションワークロードのシームレスな統合を必要とします。
Rayのような既存のフレームワークは、特に単一ノード上のアクター間の集中的な入出力と同期を要求するRLタスクにおいて、このオーケストレーションを効率的に管理していない。
本研究では,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装する手法を提案する。
これによりスケジューラは、アクター毎のロックの取得とリリース、調整関連のメッセージの送受信など、同期に必要な作業を排除することができる。
我々のフレームワークであるLingua Franca(LF)は、リアクターモデルに基づくコーディネーション言語であり、Pythonの真の並列性をサポートし、RLタスク用のデータフローグラフを自動的に生成する統一インターフェースを提供する。
シングルノードのマルチコア計算プラットフォームであるrayと比較して、lfはopenaiジムとatari環境で1.21倍と11.62倍のシミュレーションスループットを達成し、同期並列q-learningの平均トレーニング時間を31.2%削減し、マルチエージェントrl推論を5.12倍高速化する。
関連論文リスト
- Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。
非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。
非同期RLHFのさらなる計算最適化について検討するが、性能上のコストがかかることがわかった。
論文 参考訳(メタデータ) (2024-10-23T19:59:50Z) - HybridFlow: A Flexible and Efficient RLHF Framework [13.80577212781375]
人間のフィードバックからの強化学習は、Large Language Model (LLM)アライメントで広く使われている。
従来のRLはデータフローとしてモデル化することができ、各ノードはニューラルネットワーク(NN)の計算を表す。
RLHFデータフローの柔軟な表現と効率的な実行を可能にするために,シングルコントローラとマルチコントローラのパラダイムをハイブリッド方式で組み合わせたHybridFlowを提案する。
論文 参考訳(メタデータ) (2024-09-28T06:20:03Z) - Spreeze: High-Throughput Parallel Reinforcement Learning Framework [19.3019166138232]
Spreezeは強化学習のための軽量並列フレームワークである。
単一のデスクトップハードウェアリソースを効率よく利用し、スループット制限にアプローチする。
最大15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートを達成することができる。
論文 参考訳(メタデータ) (2023-12-11T05:25:01Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Flexible Parallel Learning in Edge Scenarios: Communication,
Computational and Energy Cost [20.508003076947848]
FogとIoTベースのシナリオでは、両方のアプローチを組み合わせる必要があることが多い。
フレキシブル並列学習(FPL)のためのフレームワークを提案し,データとモデル並列性を両立させる。
我々の実験は、最先端のディープネットワークアーキテクチャと大規模データセットを用いて行われ、FPLが計算コスト、通信オーバーヘッド、学習性能に優れたトレードオフを実現することを確認した。
論文 参考訳(メタデータ) (2022-01-19T03:47:04Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Restructuring, Pruning, and Adjustment of Deep Models for Parallel
Distributed Inference [15.720414948573753]
複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。
並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。
既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-08-19T06:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。