論文の概要: Optimizing Data Collection in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.07736v1
- Date: Fri, 15 Jul 2022 20:22:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 17:53:43.541559
- Title: Optimizing Data Collection in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習におけるデータ収集の最適化
- Authors: James Gleeson, Daniel Snider, Yvonne Yang, Moshe Gabel, Eyal de Lara,
Gennady Pekhimenko
- Abstract要約: GPUベクタライゼーションは、一般的に使用されるCPUシミュレータよりも最大1024タイムでスピードアップできる。
シミュレーションの複雑さがメモリ帯域幅の要求で増大するにつれて、シミュレーターカーネルの核融合の高速化は11.3Times$となり、最大1024times$に増加することを示す。
- 参考スコア(独自算出の注目度): 4.9709347068704455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) workloads take a notoriously long time to train
due to the large number of samples collected at run-time from simulators.
Unfortunately, cluster scale-up approaches remain expensive, and commonly used
CPU implementations of simulators induce high overhead when switching back and
forth between GPU computations. We explore two optimizations that increase RL
data collection efficiency by increasing GPU utilization: (1) GPU
vectorization: parallelizing simulation on the GPU for increased hardware
parallelism, and (2) simulator kernel fusion: fusing multiple simulation steps
to run in a single GPU kernel launch to reduce global memory bandwidth
requirements. We find that GPU vectorization can achieve up to $1024\times$
speedup over commonly used CPU simulators. We profile the performance of
different implementations and show that for a simple simulator, ML compiler
implementations (XLA) of GPU vectorization outperform a DNN framework (PyTorch)
by $13.4\times$ by reducing CPU overhead from repeated Python to DL backend API
calls. We show that simulator kernel fusion speedups with a simple simulator
are $11.3\times$ and increase by up to $1024\times$ as simulator complexity
increases in terms of memory bandwidth requirements. We show that the speedups
from simulator kernel fusion are orthogonal and combinable with GPU
vectorization, leading to a multiplicative speedup.
- Abstract(参考訳): 強化学習(RL)ワークロードは、シミュレータから実行時に収集された大量のサンプルのために、トレーニングに非常に長い時間を要する。
残念ながら、クラスタのスケールアップアプローチは高価であり、一般的に使用されるシミュレータのCPU実装は、GPU計算の切り替え時に高いオーバーヘッドを引き起こす。
1gpuベクトル化:ハードウェア並列性を向上させるためにgpu上での並列化シミュレーション、2)シミュレータカーネルフュージョン:単一のgpuカーネルで実行するために複数のシミュレーションステップを使用することで、グローバルメモリ帯域幅の要求を低減する。
GPUベクトル化は、一般的なCPUシミュレータよりも最大1024\times$のスピードアップを実現することができる。
我々は、異なる実装のパフォーマンスをプロファイルし、GPUベクタライゼーションのMLコンパイラ実装(XLA)が、繰り返しPythonからDLバックエンドAPI呼び出しへのCPUオーバーヘッドを減らすことで、DNNフレームワーク(PyTorch)を13.4\times$で上回ることを示す。
単純なシミュレータによるシミュレータカーネルの核融合速度は1.3\times$であり、メモリ帯域幅の要求によりシミュレータの複雑さが増加すると最大1024\times$となる。
シミュレーションカーネルの核融合による高速化は直交し,GPUベクトル化と結合可能であることを示す。
関連論文リスト
- Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement
Learning on a GPU [15.337470862838794]
我々は、単一のGPU上でエンドツーエンドのマルチエージェントRLを実装する、柔軟で軽量で使いやすいオープンソースのRLフレームワークであるWarpDriveを紹介します。
我々の設計ではシミュレーションとエージェントを並列に実行し、GPU上に1つのシミュレーションデータストアを配置して安全に更新する。
WarpDriveは、ベンチマークTagシミュレーションにおいて、2000の環境と1000のエージェント(CPU実装と比べて少なくとも100倍高いスループット)で290万の環境ステップ/秒を生成する。
論文 参考訳(メタデータ) (2021-08-31T16:59:27Z) - BayesSimIG: Scalable Parameter Inference for Adaptive Domain
Randomization with IsaacGym [59.53949960353792]
BayesSimIGは、最近リリースされたNVIDIA IsaacGymと統合されたBayesSimの実装を提供するライブラリである。
BayesSimIGはNVIDIABoardと統合して、高次元の後方のスライスを簡単に視覚化する。
論文 参考訳(メタデータ) (2021-07-09T16:21:31Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z) - Multi-GPU SNN Simulation with Perfect Static Load Balancing [0.8360870648463651]
我々は,数百万のニューロン,数十億のシナプス,8つのGPUにスケールするSNNシミュレータを提案する。
これは,1) キャッシュ対応スパイク伝送アルゴリズム,2) モデル並列マルチGPU分散方式,3) 静的かつ非常に効果的なロードバランシング戦略によって実現された。
論文 参考訳(メタデータ) (2021-02-09T07:07:34Z) - GPU-Accelerated Primal Learning for Extremely Fast Large-Scale
Classification [10.66048003460524]
ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。
我々は、GPU最適化の法則を用いて、異なる損失と特徴表現に対するTRONトレーニング時間を劇的に短縮できることを示した。
論文 参考訳(メタデータ) (2020-08-08T03:40:27Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。