Fugu-MT 論文翻訳(概要): The Architectural Implications of Distributed Reinforcement Learning on CPU-GPU Systems

論文の概要: The Architectural Implications of Distributed Reinforcement Learning on CPU-GPU Systems

arxiv url: http://arxiv.org/abs/2012.04210v1
Date: Tue, 8 Dec 2020 04:50:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-16 20:52:27.918834
Title: The Architectural Implications of Distributed Reinforcement Learning on CPU-GPU Systems
Title（参考訳）: CPU-GPUシステムにおける分散強化学習のアーキテクチャ的意味
Authors: Ahmet Inci, Evgeny Bolotin, Yaosheng Fu, Gal Dalal, Shie Mannor, David Nellans, Diana Marculescu
Abstract要約: CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
参考スコア（独自算出の注目度）: 45.479582612113205
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With deep reinforcement learning (RL) methods achieving results that exceed human capabilities in games, robotics, and simulated environments, continued scaling of RL training is crucial to its deployment in solving complex real-world problems. However, improving the performance scalability and power efficiency of RL training through understanding the architectural implications of CPU-GPU systems remains an open problem. In this work we investigate and improve the performance and power efficiency of distributed RL training on CPU-GPU systems by approaching the problem not solely from the GPU microarchitecture perspective but following a holistic system-level analysis approach. We quantify the overall hardware utilization on a state-of-the-art distributed RL training framework and empirically identify the bottlenecks caused by GPU microarchitectural, algorithmic, and system-level design choices. We show that the GPU microarchitecture itself is well-balanced for state-of-the-art RL frameworks, but further investigation reveals that the number of actors running the environment interactions and the amount of hardware resources available to them are the primary performance and power efficiency limiters. To this end, we introduce a new system design metric, CPU/GPU ratio, and show how to find the optimal balance between CPU and GPU resources when designing scalable and efficient CPU-GPU systems for RL training.
Abstract（参考訳）: ゲーム、ロボティクス、シミュレートされた環境における人間の能力を超える結果を達成するための深層強化学習(RL)手法により、複雑な現実世界の問題を解決するためにRLトレーニングの継続的なスケーリングが不可欠である。しかし、CPU-GPUシステムのアーキテクチャ的意味を理解することで、RLトレーニングの性能スケーラビリティと電力効率を向上させることは、未解決の問題である。本稿では,CPU-GPUシステムにおける分散RLトレーニングの性能と電力効率を,GPUマイクロアーキテクチャの観点からだけでなく,システムレベルの総合的な分析アプローチにもとづいて検討・改善する。最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化と,gpuのマイクロアーキテクチャ,アルゴリズム,システムレベルの設計選択によるボトルネックの実証的識別を行う。我々は、GPUマイクロアーキテクチャ自体が最先端のRLフレームワークではバランスがよく、さらに調査により、環境相互作用を実行するアクターの数と、それらに利用可能なハードウェアリソースの量が、主要なパフォーマンスと電力効率の制限要因であることを明らかにした。そこで我々は,RLトレーニングのためのスケーラブルで効率的なCPU-GPUシステムを設計する際に,CPUとGPUリソースの最適なバランスを見つける方法を示す。

関連論文リスト

Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures [3.2645124275315163]
大規模言語モデル(LLM)ベースの推論ワークロードは、データセンターのコストとリソース利用をますます支配している。本稿では, 疎結合(PCIe A100/H100) および密結合(GH200) システムにおける推論挙動の詳細な解析を行う。
論文参考訳（メタデータ） (2025-04-16T04:02:39Z)
MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文参考訳（メタデータ） (2025-04-12T21:26:56Z)
ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。 ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文参考訳（メタデータ） (2025-03-08T07:03:43Z)
Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文参考訳（メタデータ） (2024-09-23T08:27:27Z)
SwiftRL: Towards Efficient Reinforcement Learning on Real Processing-In-Memory Systems [21.133750045141802]
強化学習(RL)は、経験データセットから報酬信号を最大化することにより、エージェントに最適な行動を学ぶように訓練する。これを解決するために、SwiftRLは、RLワークロードを高速化するために、Processing-In-Memory(PIM)アーキテクチャを調査している。 UPMEM PIM システム上で Tabular Q-learning や SARSA などのRL アルゴリズムを実装し,ニア線形性能のスケーリングを実現する。
論文参考訳（メタデータ） (2024-05-07T02:54:31Z)
Spreeze: High-Throughput Parallel Reinforcement Learning Framework [19.3019166138232]
Spreezeは強化学習のための軽量並列フレームワークである。単一のデスクトップハードウェアリソースを効率よく利用し、スループット制限にアプローチする。最大15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートを達成することができる。
論文参考訳（メタデータ） (2023-12-11T05:25:01Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
MSRL: Distributed Reinforcement Learning with Dataflow Fragments [16.867322708270116]
強化学習(RL)は多くのエージェントを訓練するが、リソース集約であり、大規模なGPUクラスタにスケールする必要がある。我々は,分散RL学習システムであるMindSpore Reinforcement Learning (MSRL)について述べる。 MSRLは、RLアルゴリズムのトレーニングループから並列計算フラグメントに関数をマッピングする、断片化されたデータフローグラフの新たな抽象化を導入している。
論文参考訳（メタデータ） (2022-10-03T12:34:58Z)
Improving Sample Efficiency of Value Based Models Using Attention and Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文参考訳（メタデータ） (2022-02-01T19:03:03Z)
JUWELS Booster -- A Supercomputer for Large-Scale AI Research [79.02246047353273]
本稿では、最近J'ulich Supercomputing Centerに委託された高性能コンピューティングシステムであるJUWELS Boosterを紹介する。システムアーキテクチャ、並列性、分散モデルトレーニング、その優れたパフォーマンスを示すベンチマークについて詳述する。
論文参考訳（メタデータ） (2021-06-30T21:37:02Z)
Off-Policy Reinforcement Learning for Efficient and Effective GAN Architecture Search [50.40004966087121]
本稿では,GANアーキテクチャ探索のための強化学習に基づくニューラルアーキテクチャ探索手法を提案する。鍵となる考え方は、よりスムーズなアーキテクチャサンプリングのためのマルコフ決定プロセス(MDP)として、GANアーキテクチャ探索問題を定式化することである。我々は,従来の政策によって生成されたサンプルを効率的に活用する,非政治的なGANアーキテクチャ探索アルゴリズムを利用する。
論文参考訳（メタデータ） (2020-07-17T18:29:17Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。