論文の概要: The Architectural Implications of Distributed Reinforcement Learning on
CPU-GPU Systems
- arxiv url: http://arxiv.org/abs/2012.04210v1
- Date: Tue, 8 Dec 2020 04:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 20:52:27.918834
- Title: The Architectural Implications of Distributed Reinforcement Learning on
CPU-GPU Systems
- Title(参考訳): CPU-GPUシステムにおける分散強化学習のアーキテクチャ的意味
- Authors: Ahmet Inci, Evgeny Bolotin, Yaosheng Fu, Gal Dalal, Shie Mannor, David
Nellans, Diana Marculescu
- Abstract要約: CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。
我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。
また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
- 参考スコア(独自算出の注目度): 45.479582612113205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With deep reinforcement learning (RL) methods achieving results that exceed
human capabilities in games, robotics, and simulated environments, continued
scaling of RL training is crucial to its deployment in solving complex
real-world problems. However, improving the performance scalability and power
efficiency of RL training through understanding the architectural implications
of CPU-GPU systems remains an open problem. In this work we investigate and
improve the performance and power efficiency of distributed RL training on
CPU-GPU systems by approaching the problem not solely from the GPU
microarchitecture perspective but following a holistic system-level analysis
approach. We quantify the overall hardware utilization on a state-of-the-art
distributed RL training framework and empirically identify the bottlenecks
caused by GPU microarchitectural, algorithmic, and system-level design choices.
We show that the GPU microarchitecture itself is well-balanced for
state-of-the-art RL frameworks, but further investigation reveals that the
number of actors running the environment interactions and the amount of
hardware resources available to them are the primary performance and power
efficiency limiters. To this end, we introduce a new system design metric,
CPU/GPU ratio, and show how to find the optimal balance between CPU and GPU
resources when designing scalable and efficient CPU-GPU systems for RL
training.
- Abstract(参考訳): ゲーム、ロボティクス、シミュレートされた環境における人間の能力を超える結果を達成するための深層強化学習(RL)手法により、複雑な現実世界の問題を解決するためにRLトレーニングの継続的なスケーリングが不可欠である。
しかし、CPU-GPUシステムのアーキテクチャ的意味を理解することで、RLトレーニングの性能スケーラビリティと電力効率を向上させることは、未解決の問題である。
本稿では,CPU-GPUシステムにおける分散RLトレーニングの性能と電力効率を,GPUマイクロアーキテクチャの観点からだけでなく,システムレベルの総合的な分析アプローチにもとづいて検討・改善する。
最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化と,gpuのマイクロアーキテクチャ,アルゴリズム,システムレベルの設計選択によるボトルネックの実証的識別を行う。
我々は、GPUマイクロアーキテクチャ自体が最先端のRLフレームワークではバランスがよく、さらに調査により、環境相互作用を実行するアクターの数と、それらに利用可能なハードウェアリソースの量が、主要なパフォーマンスと電力効率の制限要因であることを明らかにした。
そこで我々は,RLトレーニングのためのスケーラブルで効率的なCPU-GPUシステムを設計する際に,CPUとGPUリソースの最適なバランスを見つける方法を示す。
関連論文リスト
- Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - SwiftRL: Towards Efficient Reinforcement Learning on Real Processing-In-Memory Systems [21.133750045141802]
強化学習(RL)は、経験データセットから報酬信号を最大化することにより、エージェントに最適な行動を学ぶように訓練する。
これを解決するために、SwiftRLは、RLワークロードを高速化するために、Processing-In-Memory(PIM)アーキテクチャを調査している。
UPMEM PIM システム上で Tabular Q-learning や SARSA などのRL アルゴリズムを実装し,ニア線形性能のスケーリングを実現する。
論文 参考訳(メタデータ) (2024-05-07T02:54:31Z) - Spreeze: High-Throughput Parallel Reinforcement Learning Framework [19.3019166138232]
Spreezeは強化学習のための軽量並列フレームワークである。
単一のデスクトップハードウェアリソースを効率よく利用し、スループット制限にアプローチする。
最大15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートを達成することができる。
論文 参考訳(メタデータ) (2023-12-11T05:25:01Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - MSRL: Distributed Reinforcement Learning with Dataflow Fragments [16.867322708270116]
強化学習(RL)は多くのエージェントを訓練するが、リソース集約であり、大規模なGPUクラスタにスケールする必要がある。
我々は,分散RL学習システムであるMindSpore Reinforcement Learning (MSRL)について述べる。
MSRLは、RLアルゴリズムのトレーニングループから並列計算フラグメントに関数をマッピングする、断片化されたデータフローグラフの新たな抽象化を導入している。
論文 参考訳(メタデータ) (2022-10-03T12:34:58Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - JUWELS Booster -- A Supercomputer for Large-Scale AI Research [79.02246047353273]
本稿では、最近J'ulich Supercomputing Centerに委託された高性能コンピューティングシステムであるJUWELS Boosterを紹介する。
システムアーキテクチャ、並列性、分散モデルトレーニング、その優れたパフォーマンスを示すベンチマークについて詳述する。
論文 参考訳(メタデータ) (2021-06-30T21:37:02Z) - Off-Policy Reinforcement Learning for Efficient and Effective GAN
Architecture Search [50.40004966087121]
本稿では,GANアーキテクチャ探索のための強化学習に基づくニューラルアーキテクチャ探索手法を提案する。
鍵となる考え方は、よりスムーズなアーキテクチャサンプリングのためのマルコフ決定プロセス(MDP)として、GANアーキテクチャ探索問題を定式化することである。
我々は,従来の政策によって生成されたサンプルを効率的に活用する,非政治的なGANアーキテクチャ探索アルゴリズムを利用する。
論文 参考訳(メタデータ) (2020-07-17T18:29:17Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。