論文の概要: GEAR: A GPU-Centric Experience Replay System for Large Reinforcement
Learning Models
- arxiv url: http://arxiv.org/abs/2310.05205v1
- Date: Sun, 8 Oct 2023 15:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:36:15.796645
- Title: GEAR: A GPU-Centric Experience Replay System for Large Reinforcement
Learning Models
- Title(参考訳): GEAR:大規模強化学習モデルのためのGPU中心体験再生システム
- Authors: Hanjing Wang, Man-Kit Sit, Congjie He, Ying Wen, Weinan Zhang, Jun
Wang, Yaodong Yang, Luo Mai
- Abstract要約: GEARは、大きなシーケンスモデル(トランスなど)でスケーラブルな強化学習(RL)を実現するように設計されている。
ホストメモリへのゼロコピーアクセスを使用してトラジェクトリを収集できるGPUカーネルと、InfiniBand上のリモート指向メモリアクセスを備える。
Gearは、最先端の大規模RLモデルをトレーニングする際に、Reverbよりも最大6倍パフォーマンスレベルを達成することができる。
- 参考スコア(独自算出の注目度): 32.23853007467266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a distributed, GPU-centric experience replay system,
GEAR, designed to perform scalable reinforcement learning (RL) with large
sequence models (such as transformers). With such models, existing systems such
as Reverb face considerable bottlenecks in memory, computation, and
communication. GEAR, however, optimizes memory efficiency by enabling the
memory resources on GPU servers (including host memory and device memory) to
manage trajectory data. Furthermore, it facilitates decentralized GPU devices
to expedite various trajectory selection strategies, circumventing
computational bottlenecks. GEAR is equipped with GPU kernels capable of
collecting trajectories using zero-copy access to host memory, along with
remote-directed-memory access over InfiniBand, improving communication
efficiency. Cluster experiments have shown that GEAR can achieve performance
levels up to 6x greater than Reverb when training state-of-the-art large RL
models. GEAR is open-sourced at https://github.com/bigrl-team/gear.
- Abstract(参考訳): 本稿では,大規模シーケンスモデル(トランスフォーマーなど)を用いた拡張強化学習(RL)を実現するために設計された,分散GPU中心のエクスペリエンス再生システムGEARを紹介する。
このようなモデルでは、Reverbのような既存のシステムは、メモリ、計算、通信においてかなりのボトルネックに直面している。
しかしGEARは、GPUサーバ上のメモリリソース(ホストメモリやデバイスメモリを含む)がトラジェクトリデータを管理することにより、メモリ効率を最適化する。
さらに、分散gpuデバイスは、計算ボトルネックを回避し、様々な軌道選択戦略を迅速化する。
GEARは、ホストメモリへのゼロコピーアクセスを使用してトラジェクトリを収集できるGPUカーネルと、InfiniBand上のリモート指向メモリアクセスを備え、通信効率が向上している。
クラスタ実験により、GEARは最先端の大規模RLモデルをトレーニングする際に、Reverbの最大6倍のパフォーマンスレベルを達成することができることが示された。
gearはhttps://github.com/bigrl-team/gearでオープンソースである。
関連論文リスト
- FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。
実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文 参考訳(メタデータ) (2023-07-14T22:52:27Z) - Accelerating Sampling and Aggregation Operations in GNN Frameworks with
GPU Initiated Direct Storage Accesses [9.773813896475264]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するための強力なツールとして登場している。
大規模グラフ上でのGNNのトレーニングは、効率的なデータアクセスとデータ移動方法が欠如しているため、依然として大きな課題である。
大規模グラフに対するGPU指向GNNトレーニングを実現するために,GPU Initiated Direct Storage Access (GIDS) データローダを提案する。
論文 参考訳(メタデータ) (2023-06-28T17:22:15Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - A Memory Efficient Deep Reinforcement Learning Approach For Snake Game
Autonomous Agents [0.799536002595393]
本稿では,環境情報の追加を必要とせず,圧縮画像データに合理的に適合する改良DRL法を提案する。
我々は,Q-networkの変種である軽量畳み込みニューラルネットワーク(CNN)を設計した。
論文 参考訳(メタデータ) (2023-01-27T20:26:48Z) - Elixir: Train a Large Language Model on a Small GPU Cluster [6.578131399847817]
大規模な言語モデルは前例のない規模で大きな成功を収めた。
Elixirは、実行前のモデルプロファイリングに基づいて、効率的な大規模モデルのトレーニングを自動化する。
Elixirは現在の最先端のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2022-12-10T17:26:05Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based
Memory Management [19.341284825473558]
事前訓練モデル(PTM)は、人工知能(AI)技術に革命をもたらす。
PTMは、膨大なテキスト上に汎用的な特徴を持つモデルを学び、タスク固有のデータセットを使用してモデルを微調整する。
PatrickStarは、異種メモリ空間を使用することで、コンピューティングプラットフォームのメモリ要求を減らす。
論文 参考訳(メタデータ) (2021-08-12T15:58:12Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。