Fugu-MT 論文翻訳(概要): Efficient Parallel Reinforcement Learning Framework using the Reactor Model

論文の概要: Efficient Parallel Reinforcement Learning Framework using the Reactor Model

arxiv url: http://arxiv.org/abs/2312.04704v2
Date: Fri, 2 Feb 2024 19:41:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 03:42:57.547786
Title: Efficient Parallel Reinforcement Learning Framework using the Reactor Model
Title（参考訳）: リアクターモデルを用いた効率的な並列強化学習フレームワーク
Authors: Jacky Kwok, Marten Lohstroh, Edward A. Lee
Abstract要約: 強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。 Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
参考スコア（独自算出の注目度）: 2.190190313041532
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Parallel Reinforcement Learning (RL) frameworks are essential for mapping RL workloads to multiple computational resources, allowing for faster generation of samples, estimation of values, and policy improvement. These computational paradigms require a seamless integration of training, serving, and simulation workloads. Existing frameworks, such as Ray, are not managing this orchestration efficiently, especially in RL tasks that demand intensive input/output and synchronization between actors on a single node. In this study, we have proposed a solution implementing the reactor model, which enforces a set of actors to have a fixed communication pattern. This allows the scheduler to eliminate work needed for synchronization, such as acquiring and releasing locks for each actor or sending and processing coordination-related messages. Our framework, Lingua Franca (LF), a coordination language based on the reactor model, also supports true parallelism in Python and provides a unified interface that allows users to automatically generate dataflow graphs for RL tasks. In comparison to Ray on a single-node multi-core compute platform, LF achieves 1.21x and 11.62x higher simulation throughput in OpenAI Gym and Atari environments, reduces the average training time of synchronized parallel Q-learning by 31.2%, and accelerates multi-agent RL inference by 5.12x.
Abstract（参考訳）: 並列強化学習(rl)フレームワークは、rlワークロードを複数の計算リソースにマッピングするために必須であり、サンプルの生成、値の推定、ポリシーの改善を可能にする。これらの計算パラダイムは、トレーニング、サービス、シミュレーションワークロードのシームレスな統合を必要とします。 Rayのような既存のフレームワークは、特に単一ノード上のアクター間の集中的な入出力と同期を要求するRLタスクにおいて、このオーケストレーションを効率的に管理していない。本研究では,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装する手法を提案する。これによりスケジューラは、アクター毎のロックの取得とリリース、調整関連のメッセージの送受信など、同期に必要な作業を排除することができる。我々のフレームワークであるLingua Franca(LF)は、リアクターモデルに基づくコーディネーション言語であり、Pythonの真の並列性をサポートし、RLタスク用のデータフローグラフを自動的に生成する統一インターフェースを提供する。シングルノードのマルチコア計算プラットフォームであるrayと比較して、lfはopenaiジムとatari環境で1.21倍と11.62倍のシミュレーションスループットを達成し、同期並列q-learningの平均トレーニング時間を31.2%削減し、マルチエージェントrl推論を5.12倍高速化する。

関連論文リスト

Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms [4.127488674019288]
大規模言語モデルのポストトレーニングは、同じGPUクラスタ上でトラジェクトリサンプリングとポリシ最適化を併用する。ヘテロジニアスな"推論"と"トレーニング"スワムにまたがって、これらの2つのフェーズをきれいに分離するRLシステムであるEchoを紹介します。
論文参考訳（メタデータ） (2025-08-07T13:37:04Z)
High-Throughput Distributed Reinforcement Learning via Adaptive Policy Synchronization [0.0]
ClusterEnvは、Gymnasium APIを反映した、分散環境実行のための学習者に依存しないインターフェイスである。 ClusterEnvは、リモートワーカーにreset()とstep()操作をオフロードし、学習を集中的に維持することで、トレーニングからシミュレーションを分離するDETACHパターンを導入した。本稿では,適応アクタポリシー同期(AAPS)を提案する。これは分散トリガーによる更新機構で,性能を犠牲にすることなく,同期オーバーヘッドを低減する。
論文参考訳（メタデータ） (2025-07-15T05:07:12Z)
AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文参考訳（メタデータ） (2025-07-02T12:45:34Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。非同期RLHFのさらなる計算最適化について検討するが、性能上のコストがかかることがわかった。
論文参考訳（メタデータ） (2024-10-23T19:59:50Z)
HybridFlow: A Flexible and Efficient RLHF Framework [13.80577212781375]
人間のフィードバックからの強化学習は、Large Language Model (LLM)アライメントで広く使われている。従来のRLはデータフローとしてモデル化することができ、各ノードはニューラルネットワーク(NN)の計算を表す。 RLHFデータフローの柔軟な表現と効率的な実行を可能にするために,シングルコントローラとマルチコントローラのパラダイムをハイブリッド方式で組み合わせたHybridFlowを提案する。
論文参考訳（メタデータ） (2024-09-28T06:20:03Z)
Spreeze: High-Throughput Parallel Reinforcement Learning Framework [19.3019166138232]
Spreezeは強化学習のための軽量並列フレームワークである。単一のデスクトップハードウェアリソースを効率よく利用し、スループット制限にアプローチする。最大15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートを達成することができる。
論文参考訳（メタデータ） (2023-12-11T05:25:01Z)
Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。理論的には、再発と注意の関係を導出する。言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文参考訳（メタデータ） (2023-07-17T16:40:01Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
Flexible Parallel Learning in Edge Scenarios: Communication, Computational and Energy Cost [20.508003076947848]
FogとIoTベースのシナリオでは、両方のアプローチを組み合わせる必要があることが多い。フレキシブル並列学習(FPL)のためのフレームワークを提案し,データとモデル並列性を両立させる。我々の実験は、最先端のディープネットワークアーキテクチャと大規模データセットを用いて行われ、FPLが計算コスト、通信オーバーヘッド、学習性能に優れたトレードオフを実現することを確認した。
論文参考訳（メタデータ） (2022-01-19T03:47:04Z)
MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。 PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文参考訳（メタデータ） (2021-06-05T03:27:08Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)
Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文参考訳（メタデータ） (2020-12-07T16:38:45Z)
Restructuring, Pruning, and Adjustment of Deep Models for Parallel Distributed Inference [15.720414948573753]
複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
論文参考訳（メタデータ） (2020-08-19T06:44:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。