Fugu-MT 論文翻訳(概要): Optimizing Distributed Reinforcement Learning with Reactor Model and Lingua Franca

論文の概要: Optimizing Distributed Reinforcement Learning with Reactor Model and Lingua Franca

arxiv url: http://arxiv.org/abs/2312.04704v1
Date: Thu, 7 Dec 2023 21:19:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 16:57:27.803916
Title: Optimizing Distributed Reinforcement Learning with Reactor Model and Lingua Franca
Title（参考訳）: Reactor ModelとLingua Francaによる分散強化学習の最適化
Authors: Jacky Kwok, Marten Lohstroh, Edward A. Lee
Abstract要約: 分散強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。 Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。我々は、アクターのセットに固定された通信パターンを強制するReactor Modelを実装したソリューションを提案しました。
参考スコア（独自算出の注目度）: 2.190190313041532
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Distributed Reinforcement Learning (RL) frameworks are essential for mapping RL workloads to multiple computational resources, allowing for faster generation of samples, estimation of values, and policy improvement. These computational paradigms require a seamless integration of training, serving, and simulation workloads. Existing frameworks, such as Ray, are not managing this orchestration efficiently. In this study, we've proposed a solution implementing Reactor Model, which enforces a set of actors to have a fixed communication pattern. This allows the scheduler to eliminate works needed for synchronization, such as acquiring and releasing locks for each actor or sending and processing coordination-related messages. Our framework, Lingua Franca (LF), a coordination language based on the Reactor Model, also provides a unified interface that allows users to automatically generate dataflow graphs for distributed RL. On average, LF outperformed Ray in generating samples from OpenAI Gym and Atari environments by 1.21x and 11.62x, reduced the average training time of synchronized parallel Q-learning by 31.2%, and accelerated Multi-Agent RL inference by 5.12x.
Abstract（参考訳）: 分散強化学習(rl)フレームワークは、rlワークロードを複数の計算リソースにマッピングするために必須であり、サンプルの生成、値の推定、ポリシーの改善を可能にする。これらの計算パラダイムは、トレーニング、サービス、シミュレーションワークロードのシームレスな統合を必要とします。 rayのような既存のフレームワークはこのオーケストレーションを効率的に管理していない。本研究では,アクタのセットに固定的な通信パターンを強制するReactor Modelを実装したソリューションを提案する。これによりスケジューラは、アクター毎のロックの取得とリリース、調整関連のメッセージの送受信など、同期に必要な作業を排除することができる。当社のフレームワークであるLingua Franca(LF)は、Reactor Modelをベースにしたコーディネーション言語で、ユーザが分散RL用のデータフローグラフを自動的に生成できる統一インターフェースも提供しています。 LFはOpenAI GymおよびAtari環境からのサンプル生成において平均1.21倍、11.62倍、同期並列Q-ラーニングの平均トレーニング時間を31.2%、マルチエージェントRL推論を5.12倍に向上させた。

関連論文リスト

Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms [4.127488674019288]
大規模言語モデルのポストトレーニングは、同じGPUクラスタ上でトラジェクトリサンプリングとポリシ最適化を併用する。ヘテロジニアスな"推論"と"トレーニング"スワムにまたがって、これらの2つのフェーズをきれいに分離するRLシステムであるEchoを紹介します。
論文参考訳（メタデータ） (2025-08-07T13:37:04Z)
High-Throughput Distributed Reinforcement Learning via Adaptive Policy Synchronization [0.0]
ClusterEnvは、Gymnasium APIを反映した、分散環境実行のための学習者に依存しないインターフェイスである。 ClusterEnvは、リモートワーカーにreset()とstep()操作をオフロードし、学習を集中的に維持することで、トレーニングからシミュレーションを分離するDETACHパターンを導入した。本稿では,適応アクタポリシー同期(AAPS)を提案する。これは分散トリガーによる更新機構で,性能を犠牲にすることなく,同期オーバーヘッドを低減する。
論文参考訳（メタデータ） (2025-07-15T05:07:12Z)
AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文参考訳（メタデータ） (2025-07-02T12:45:34Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。非同期RLHFのさらなる計算最適化について検討するが、性能上のコストがかかることがわかった。
論文参考訳（メタデータ） (2024-10-23T19:59:50Z)
HybridFlow: A Flexible and Efficient RLHF Framework [13.80577212781375]
人間のフィードバックからの強化学習は、Large Language Model (LLM)アライメントで広く使われている。従来のRLはデータフローとしてモデル化することができ、各ノードはニューラルネットワーク(NN)の計算を表す。 RLHFデータフローの柔軟な表現と効率的な実行を可能にするために,シングルコントローラとマルチコントローラのパラダイムをハイブリッド方式で組み合わせたHybridFlowを提案する。
論文参考訳（メタデータ） (2024-09-28T06:20:03Z)
Spreeze: High-Throughput Parallel Reinforcement Learning Framework [19.3019166138232]
Spreezeは強化学習のための軽量並列フレームワークである。単一のデスクトップハードウェアリソースを効率よく利用し、スループット制限にアプローチする。最大15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートを達成することができる。
論文参考訳（メタデータ） (2023-12-11T05:25:01Z)
Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。理論的には、再発と注意の関係を導出する。言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文参考訳（メタデータ） (2023-07-17T16:40:01Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
Flexible Parallel Learning in Edge Scenarios: Communication, Computational and Energy Cost [20.508003076947848]
FogとIoTベースのシナリオでは、両方のアプローチを組み合わせる必要があることが多い。フレキシブル並列学習(FPL)のためのフレームワークを提案し,データとモデル並列性を両立させる。我々の実験は、最先端のディープネットワークアーキテクチャと大規模データセットを用いて行われ、FPLが計算コスト、通信オーバーヘッド、学習性能に優れたトレードオフを実現することを確認した。
論文参考訳（メタデータ） (2022-01-19T03:47:04Z)
MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。 PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文参考訳（メタデータ） (2021-06-05T03:27:08Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)
Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文参考訳（メタデータ） (2020-12-07T16:38:45Z)
Restructuring, Pruning, and Adjustment of Deep Models for Parallel Distributed Inference [15.720414948573753]
複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
論文参考訳（メタデータ） (2020-08-19T06:44:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。