論文の概要: Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations
- arxiv url: http://arxiv.org/abs/2110.01101v1
- Date: Sun, 3 Oct 2021 21:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 03:00:16.974162
- Title: Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations
- Title(参考訳): 並列アクターと学習者:スケーラブルなRL実装を生成するフレームワーク
- Authors: Chi Zhang, Sanmukh Rao Kuppannagari, Viktor K Prasanna
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.432131909590824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has achieved significant success in application
domains such as robotics, games, health care and others. However, training RL
agents is very time consuming. Current implementations exhibit poor performance
due to challenges such as irregular memory accesses and synchronization
overheads.
In this work, we propose a framework for generating scalable reinforcement
learning implementations on multicore systems. Replay Buffer is a key component
of RL algorithms which facilitates storage of samples obtained from
environmental interactions and their sampling for the learning process. We
define a new data structure for prioritized replay buffer based on $K$-ary sum
tree that supports asynchronous parallel insertions, sampling, and priority
updates. To address the challenge of irregular memory accesses, we propose a
novel data layout to store the nodes of the sum tree that reduces the number of
cache misses. Additionally, we propose \textit{lazy writing} mechanism to
reduce synchronization overheads of the replay buffer. Our framework employs
parallel actors to concurrently collect data via environmental interactions,
and parallel learners to perform stochastic gradient descent using the
collected data. Our framework supports a wide range of reinforcement learning
algorithms including DQN, DDPG, TD3, SAC, etc. We demonstrate the effectiveness
of our framework in accelerating RL algorithms by performing experiments on CPU
+ GPU platform using OpenAI benchmarks. Our results show that the performance
of our approach scales linearly with the number of cores. Compared with the
baseline approaches, we reduce the convergence time by 3.1x$\sim$10.8x. By
plugging our replay buffer implementation into existing open source
reinforcement learning frameworks, we achieve 1.1x$\sim$2.1x speedup for
sequential executions.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
しかし、RLエージェントの訓練は非常に時間がかかる。
現在の実装では、不規則なメモリアクセスや同期オーバーヘッドなどの問題によりパフォーマンスが低下している。
本研究では,マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
Replay Bufferは、環境相互作用から得られたサンプルの保存と学習プロセスのためのサンプリングを容易にするRLアルゴリズムの重要なコンポーネントである。
我々は、非同期並列挿入、サンプリング、優先度更新をサポートする$k$-ary sum treeに基づく優先順位付きリプレイバッファの新しいデータ構造を定義した。
不規則なメモリアクセスの課題に対処するために,sumツリーのノードを格納し,キャッシュミス数を削減する新しいデータレイアウトを提案する。
さらに,リプレイバッファの同期オーバーヘッドを低減するための‘textit{lazy writing} 機構を提案する。
本フレームワークでは,並列アクタを用いて環境相互作用によるデータ収集を行い,並列学習者が収集したデータを用いて確率勾配降下を行う。
我々のフレームワークは、DQN、DDPG、TD3、SACなど、幅広い強化学習アルゴリズムをサポートしている。
OpenAIベンチマークを用いて、CPU+GPUプラットフォーム上で実験を行うことにより、RLアルゴリズムの高速化における我々のフレームワークの有効性を示す。
その結果,本手法の性能はコア数に比例して線形に拡張できることがわかった。
ベースラインアプローチと比較して、収束時間を3.1x$\sim$10.8x削減する。
リプレイバッファの実装を既存のオープンソースの強化学習フレームワークにプラグインすることで、シーケンシャルな実行のために1.1x$\sim$2.1xのスピードアップを実現します。
関連論文リスト
- Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - Scalable and Efficient Temporal Graph Representation Learning via Forward Recent Sampling [7.803172953008744]
時間グラフ表現学習(TGRL)は,実世界のネットワークにおける動的システムのモデリングに不可欠である。
従来のTGRL法は、時間的隣人の非効率なサンプリングのため、重要な計算課題や推論遅延に直面していることが多い。
本稿では,新しいTGRLフレームワークであるNo-Looking-Back (NLB)を提案する。
論文 参考訳(メタデータ) (2024-02-03T00:12:36Z) - Spreeze: High-Throughput Parallel Reinforcement Learning Framework [19.3019166138232]
Spreezeは強化学習のための軽量並列フレームワークである。
単一のデスクトップハードウェアリソースを効率よく利用し、スループット制限にアプローチする。
最大15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートを達成することができる。
論文 参考訳(メタデータ) (2023-12-11T05:25:01Z) - Efficient Parallel Reinforcement Learning Framework using the Reactor
Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文 参考訳(メタデータ) (2023-12-07T21:19:57Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - FNAS: Uncertainty-Aware Fast Neural Architecture Search [54.49650267859032]
強化学習(Reinforcement Learning, RL)に基づくニューラルアーキテクチャサーチ(NAS)は一般的に、収束性の向上を保証するが、巨大な計算資源の要求に悩まされる。
NASにおけるロールアウトプロセスとRLプロセスの収束を加速する汎用パイプラインを提案する。
Mobile Neural Architecture Search (MNAS)サーチスペースの実験では、提案するFast Neural Architecture Search (FNAS)が標準のRLベースのNASプロセスを10倍高速化することを示した。
論文 参考訳(メタデータ) (2021-05-25T06:32:52Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - On the Utility of Gradient Compression in Distributed Training Systems [9.017890174185872]
本稿では,勾配圧縮法の有効性を評価し,そのスケーラビリティを同期データ並列sgdの最適化実装と比較する。
意外なことに、勾配圧縮によって引き起こされる計算オーバーヘッドのため、バニラデータ並列トレーニングのネットスピードアップは、負でなくても限界である。
論文 参考訳(メタデータ) (2021-02-28T15:58:45Z) - Accurate, Efficient and Scalable Training of Graph Neural Networks [9.569918335816963]
グラフニューラルネットワーク(GNN)は、グラフ上にノード埋め込みを生成する強力なディープラーニングモデルである。
効率的でスケーラブルな方法でトレーニングを実行することは依然として困難です。
本稿では,最先端のミニバッチ手法と比較して,トレーニング負荷を桁違いに削減する新しい並列トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-05T22:06:23Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。