論文の概要: GEAR: A GPU-Centric Experience Replay System for Large Reinforcement
Learning Models
- arxiv url: http://arxiv.org/abs/2310.05205v1
- Date: Sun, 8 Oct 2023 15:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:36:15.796645
- Title: GEAR: A GPU-Centric Experience Replay System for Large Reinforcement
Learning Models
- Title(参考訳): GEAR:大規模強化学習モデルのためのGPU中心体験再生システム
- Authors: Hanjing Wang, Man-Kit Sit, Congjie He, Ying Wen, Weinan Zhang, Jun
Wang, Yaodong Yang, Luo Mai
- Abstract要約: GEARは、大きなシーケンスモデル(トランスなど)でスケーラブルな強化学習(RL)を実現するように設計されている。
ホストメモリへのゼロコピーアクセスを使用してトラジェクトリを収集できるGPUカーネルと、InfiniBand上のリモート指向メモリアクセスを備える。
Gearは、最先端の大規模RLモデルをトレーニングする際に、Reverbよりも最大6倍パフォーマンスレベルを達成することができる。
- 参考スコア(独自算出の注目度): 32.23853007467266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a distributed, GPU-centric experience replay system,
GEAR, designed to perform scalable reinforcement learning (RL) with large
sequence models (such as transformers). With such models, existing systems such
as Reverb face considerable bottlenecks in memory, computation, and
communication. GEAR, however, optimizes memory efficiency by enabling the
memory resources on GPU servers (including host memory and device memory) to
manage trajectory data. Furthermore, it facilitates decentralized GPU devices
to expedite various trajectory selection strategies, circumventing
computational bottlenecks. GEAR is equipped with GPU kernels capable of
collecting trajectories using zero-copy access to host memory, along with
remote-directed-memory access over InfiniBand, improving communication
efficiency. Cluster experiments have shown that GEAR can achieve performance
levels up to 6x greater than Reverb when training state-of-the-art large RL
models. GEAR is open-sourced at https://github.com/bigrl-team/gear.
- Abstract(参考訳): 本稿では,大規模シーケンスモデル(トランスフォーマーなど)を用いた拡張強化学習(RL)を実現するために設計された,分散GPU中心のエクスペリエンス再生システムGEARを紹介する。
このようなモデルでは、Reverbのような既存のシステムは、メモリ、計算、通信においてかなりのボトルネックに直面している。
しかしGEARは、GPUサーバ上のメモリリソース(ホストメモリやデバイスメモリを含む)がトラジェクトリデータを管理することにより、メモリ効率を最適化する。
さらに、分散gpuデバイスは、計算ボトルネックを回避し、様々な軌道選択戦略を迅速化する。
GEARは、ホストメモリへのゼロコピーアクセスを使用してトラジェクトリを収集できるGPUカーネルと、InfiniBand上のリモート指向メモリアクセスを備え、通信効率が向上している。
クラスタ実験により、GEARは最先端の大規模RLモデルをトレーニングする際に、Reverbの最大6倍のパフォーマンスレベルを達成することができることが示された。
gearはhttps://github.com/bigrl-team/gearでオープンソースである。
関連論文リスト
- Scaling Large Language Model Training on Frontier with Low-Bandwidth Partitioning [2.685330831042324]
通信コストを削減し,メモリ使用量を改善するため,ZeRO++の通信と最適化戦略の集合を提案する。
20B GPTモデルでは、ZeRO++の最大384 GCDと比較して1.71倍のTFLOPS増加、最大384 GCDのスケーリング効率は0.94である。
論文 参考訳(メタデータ) (2025-01-08T04:19:57Z) - APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。
アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。
状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文 参考訳(メタデータ) (2024-12-02T06:57:46Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。
実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文 参考訳(メタデータ) (2023-07-14T22:52:27Z) - Accelerating Sampling and Aggregation Operations in GNN Frameworks with
GPU Initiated Direct Storage Accesses [9.773813896475264]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するための強力なツールとして登場している。
大規模グラフ上でのGNNのトレーニングは、効率的なデータアクセスとデータ移動方法が欠如しているため、依然として大きな課題である。
大規模グラフに対するGPU指向GNNトレーニングを実現するために,GPU Initiated Direct Storage Access (GIDS) データローダを提案する。
論文 参考訳(メタデータ) (2023-06-28T17:22:15Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based
Memory Management [19.341284825473558]
事前訓練モデル(PTM)は、人工知能(AI)技術に革命をもたらす。
PTMは、膨大なテキスト上に汎用的な特徴を持つモデルを学び、タスク固有のデータセットを使用してモデルを微調整する。
PatrickStarは、異種メモリ空間を使用することで、コンピューティングプラットフォームのメモリ要求を減らす。
論文 参考訳(メタデータ) (2021-08-12T15:58:12Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。