Fugu-MT 論文翻訳(概要): Parallel Actors and Learners: A Framework for Generating Scalable RL Implementations

論文の概要: Parallel Actors and Learners: A Framework for Generating Scalable RL Implementations

arxiv url: http://arxiv.org/abs/2110.01101v1
Date: Sun, 3 Oct 2021 21:00:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-06 03:00:16.974162
Title: Parallel Actors and Learners: A Framework for Generating Scalable RL Implementations
Title（参考訳）: 並列アクターと学習者:スケーラブルなRL実装を生成するフレームワーク
Authors: Chi Zhang, Sanmukh Rao Kuppannagari, Viktor K Prasanna
Abstract要約: 強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
参考スコア（独自算出の注目度）: 14.432131909590824
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning (RL) has achieved significant success in application domains such as robotics, games, health care and others. However, training RL agents is very time consuming. Current implementations exhibit poor performance due to challenges such as irregular memory accesses and synchronization overheads. In this work, we propose a framework for generating scalable reinforcement learning implementations on multicore systems. Replay Buffer is a key component of RL algorithms which facilitates storage of samples obtained from environmental interactions and their sampling for the learning process. We define a new data structure for prioritized replay buffer based on $K$-ary sum tree that supports asynchronous parallel insertions, sampling, and priority updates. To address the challenge of irregular memory accesses, we propose a novel data layout to store the nodes of the sum tree that reduces the number of cache misses. Additionally, we propose \textit{lazy writing} mechanism to reduce synchronization overheads of the replay buffer. Our framework employs parallel actors to concurrently collect data via environmental interactions, and parallel learners to perform stochastic gradient descent using the collected data. Our framework supports a wide range of reinforcement learning algorithms including DQN, DDPG, TD3, SAC, etc. We demonstrate the effectiveness of our framework in accelerating RL algorithms by performing experiments on CPU + GPU platform using OpenAI benchmarks. Our results show that the performance of our approach scales linearly with the number of cores. Compared with the baseline approaches, we reduce the convergence time by 3.1x$\sim$10.8x. By plugging our replay buffer implementation into existing open source reinforcement learning frameworks, we achieve 1.1x$\sim$2.1x speedup for sequential executions.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。しかし、RLエージェントの訓練は非常に時間がかかる。現在の実装では、不規則なメモリアクセスや同期オーバーヘッドなどの問題によりパフォーマンスが低下している。本研究では,マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。 Replay Bufferは、環境相互作用から得られたサンプルの保存と学習プロセスのためのサンプリングを容易にするRLアルゴリズムの重要なコンポーネントである。我々は、非同期並列挿入、サンプリング、優先度更新をサポートする$k$-ary sum treeに基づく優先順位付きリプレイバッファの新しいデータ構造を定義した。不規則なメモリアクセスの課題に対処するために,sumツリーのノードを格納し,キャッシュミス数を削減する新しいデータレイアウトを提案する。さらに,リプレイバッファの同期オーバーヘッドを低減するための‘textit{lazy writing} 機構を提案する。本フレームワークでは,並列アクタを用いて環境相互作用によるデータ収集を行い,並列学習者が収集したデータを用いて確率勾配降下を行う。我々のフレームワークは、DQN、DDPG、TD3、SACなど、幅広い強化学習アルゴリズムをサポートしている。 OpenAIベンチマークを用いて、CPU+GPUプラットフォーム上で実験を行うことにより、RLアルゴリズムの高速化における我々のフレームワークの有効性を示す。その結果,本手法の性能はコア数に比例して線形に拡張できることがわかった。ベースラインアプローチと比較して、収束時間を3.1x$\sim$10.8x削減する。リプレイバッファの実装を既存のオープンソースの強化学習フレームワークにプラグインすることで、シーケンシャルな実行のために1.1x$\sim$2.1xのスピードアップを実現します。

関連論文リスト

StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文参考訳（メタデータ） (2025-03-24T17:51:39Z)
APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。 APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。 APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文参考訳（メタデータ） (2025-02-17T17:59:56Z)
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文参考訳（メタデータ） (2024-08-16T12:20:56Z)
Scalable and Efficient Temporal Graph Representation Learning via Forward Recent Sampling [7.803172953008744]
時間グラフ表現学習(TGRL)は,実世界のネットワークにおける動的システムのモデリングに不可欠である。従来のTGRL法は、時間的隣人の非効率なサンプリングのため、重要な計算課題や推論遅延に直面していることが多い。本稿では,新しいTGRLフレームワークであるNo-Looking-Back (NLB)を提案する。
論文参考訳（メタデータ） (2024-02-03T00:12:36Z)
Spreeze: High-Throughput Parallel Reinforcement Learning Framework [19.3019166138232]
Spreezeは強化学習のための軽量並列フレームワークである。単一のデスクトップハードウェアリソースを効率よく利用し、スループット制限にアプローチする。最大15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートを達成することができる。
論文参考訳（メタデータ） (2023-12-11T05:25:01Z)
Efficient Parallel Reinforcement Learning Framework using the Reactor Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。 Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文参考訳（メタデータ） (2023-12-07T21:19:57Z)
Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。理論的には、再発と注意の関係を導出する。言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文参考訳（メタデータ） (2023-07-17T16:40:01Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
FNAS: Uncertainty-Aware Fast Neural Architecture Search [54.49650267859032]
強化学習(Reinforcement Learning, RL)に基づくニューラルアーキテクチャサーチ(NAS)は一般的に、収束性の向上を保証するが、巨大な計算資源の要求に悩まされる。 NASにおけるロールアウトプロセスとRLプロセスの収束を加速する汎用パイプラインを提案する。 Mobile Neural Architecture Search (MNAS)サーチスペースの実験では、提案するFast Neural Architecture Search (FNAS)が標準のRLベースのNASプロセスを10倍高速化することを示した。
論文参考訳（メタデータ） (2021-05-25T06:32:52Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)
On the Utility of Gradient Compression in Distributed Training Systems [9.017890174185872]
本稿では,勾配圧縮法の有効性を評価し,そのスケーラビリティを同期データ並列sgdの最適化実装と比較する。意外なことに、勾配圧縮によって引き起こされる計算オーバーヘッドのため、バニラデータ並列トレーニングのネットスピードアップは、負でなくても限界である。
論文参考訳（メタデータ） (2021-02-28T15:58:45Z)
Accurate, Efficient and Scalable Training of Graph Neural Networks [9.569918335816963]
グラフニューラルネットワーク(GNN)は、グラフ上にノード埋め込みを生成する強力なディープラーニングモデルである。効率的でスケーラブルな方法でトレーニングを実行することは依然として困難です。本稿では,最先端のミニバッチ手法と比較して,トレーニング負荷を桁違いに削減する新しい並列トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-05T22:06:23Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。