Fugu-MT 論文翻訳(概要): GEAR: A GPU-Centric Experience Replay System for Large Reinforcement Learning Models

論文の概要: GEAR: A GPU-Centric Experience Replay System for Large Reinforcement Learning Models

arxiv url: http://arxiv.org/abs/2310.05205v1
Date: Sun, 8 Oct 2023 15:39:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 11:36:15.796645
Title: GEAR: A GPU-Centric Experience Replay System for Large Reinforcement Learning Models
Title（参考訳）: GEAR:大規模強化学習モデルのためのGPU中心体験再生システム
Authors: Hanjing Wang, Man-Kit Sit, Congjie He, Ying Wen, Weinan Zhang, Jun Wang, Yaodong Yang, Luo Mai
Abstract要約: GEARは、大きなシーケンスモデル(トランスなど)でスケーラブルな強化学習(RL)を実現するように設計されている。ホストメモリへのゼロコピーアクセスを使用してトラジェクトリを収集できるGPUカーネルと、InfiniBand上のリモート指向メモリアクセスを備える。 Gearは、最先端の大規模RLモデルをトレーニングする際に、Reverbよりも最大6倍パフォーマンスレベルを達成することができる。
参考スコア（独自算出の注目度）: 32.23853007467266
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a distributed, GPU-centric experience replay system, GEAR, designed to perform scalable reinforcement learning (RL) with large sequence models (such as transformers). With such models, existing systems such as Reverb face considerable bottlenecks in memory, computation, and communication. GEAR, however, optimizes memory efficiency by enabling the memory resources on GPU servers (including host memory and device memory) to manage trajectory data. Furthermore, it facilitates decentralized GPU devices to expedite various trajectory selection strategies, circumventing computational bottlenecks. GEAR is equipped with GPU kernels capable of collecting trajectories using zero-copy access to host memory, along with remote-directed-memory access over InfiniBand, improving communication efficiency. Cluster experiments have shown that GEAR can achieve performance levels up to 6x greater than Reverb when training state-of-the-art large RL models. GEAR is open-sourced at https://github.com/bigrl-team/gear.
Abstract（参考訳）: 本稿では,大規模シーケンスモデル(トランスフォーマーなど)を用いた拡張強化学習(RL)を実現するために設計された,分散GPU中心のエクスペリエンス再生システムGEARを紹介する。このようなモデルでは、Reverbのような既存のシステムは、メモリ、計算、通信においてかなりのボトルネックに直面している。しかしGEARは、GPUサーバ上のメモリリソース(ホストメモリやデバイスメモリを含む)がトラジェクトリデータを管理することにより、メモリ効率を最適化する。さらに、分散gpuデバイスは、計算ボトルネックを回避し、様々な軌道選択戦略を迅速化する。 GEARは、ホストメモリへのゼロコピーアクセスを使用してトラジェクトリを収集できるGPUカーネルと、InfiniBand上のリモート指向メモリアクセスを備え、通信効率が向上している。クラスタ実験により、GEARは最先端の大規模RLモデルをトレーニングする際に、Reverbの最大6倍のパフォーマンスレベルを達成することができることが示された。 gearはhttps://github.com/bigrl-team/gearでオープンソースである。

関連論文リスト

Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰生成の性質は推論時に非効率な資源利用につながることが多い。本稿では,DRAM帯域幅飽和が主なボトルネックとなっているため,大容量の推論がメモリバウンドのままであることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
Scaling Large Language Model Training on Frontier with Low-Bandwidth Partitioning [2.685330831042324]
通信コストを削減し,メモリ使用量を改善するため,ZeRO++の通信と最適化戦略の集合を提案する。 20B GPTモデルでは、ZeRO++の最大384 GCDと比較して1.71倍のTFLOPS増加、最大384 GCDのスケーリング効率は0.94である。
論文参考訳（メタデータ） (2025-01-08T04:19:57Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文参考訳（メタデータ） (2024-12-02T06:57:46Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
FastGL: A GPU-Efficient Framework for Accelerating Sampling-Based GNN Training at Large Scale [29.272368697268433]
グラフニューラルネットワーク(GNN)は、非ユークリッドグラフデータに対して大きな優位性を示している。我々は,大規模なGNNのサンプリングベーストレーニングを高速化するGPU効率のフレームワークであるFastGLを提案する。 FastGLは、最先端フレームワークであるPyG、DGL、GNNLabに対して平均11.8x、2.2x、1.5xのスピードアップを達成することができる。
論文参考訳（メタデータ） (2024-09-23T11:45:47Z)
AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文参考訳（メタデータ） (2024-03-21T04:31:59Z)
JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning [16.86356520836045]
本稿では,Llama-2モデルのPEFT互換微調整のための新しいフレームワークについて紹介する。我々のフレームワークは、JAXのジャスト・イン・タイム(JIT)コンパイルと、効率的なリソース管理のためにテンソルシャーディングを独自に利用しています。実験では,Hugging Face/DeepSpeed実装を4GPUで実装するのに対して,GPUあたりのVRAMは半分以下であるのに対して,ランタイムでは12倍以上の改善が見られた。
論文参考訳（メタデータ） (2024-03-17T23:02:04Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文参考訳（メタデータ） (2023-07-14T22:52:27Z)
Accelerating Sampling and Aggregation Operations in GNN Frameworks with GPU Initiated Direct Storage Accesses [9.773813896475264]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するための強力なツールとして登場している。大規模グラフ上でのGNNのトレーニングは、効率的なデータアクセスとデータ移動方法が欠如しているため、依然として大きな課題である。大規模グラフに対するGPU指向GNNトレーニングを実現するために,GPU Initiated Direct Storage Access (GIDS) データローダを提案する。
論文参考訳（メタデータ） (2023-06-28T17:22:15Z)
ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文参考訳（メタデータ） (2021-12-11T06:31:21Z)
PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based Memory Management [19.341284825473558]
事前訓練モデル(PTM)は、人工知能(AI)技術に革命をもたらす。 PTMは、膨大なテキスト上に汎用的な特徴を持つモデルを学び、タスク固有のデータセットを使用してモデルを微調整する。 PatrickStarは、異種メモリ空間を使用することで、コンピューティングプラットフォームのメモリ要求を減らす。
論文参考訳（メタデータ） (2021-08-12T15:58:12Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。