論文の概要: G10: Enabling An Efficient Unified GPU Memory and Storage Architecture
with Smart Tensor Migrations
- arxiv url: http://arxiv.org/abs/2310.09443v1
- Date: Fri, 13 Oct 2023 23:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 02:06:33.968613
- Title: G10: Enabling An Efficient Unified GPU Memory and Storage Architecture
with Smart Tensor Migrations
- Title(参考訳): G10: スマートテンソルマイグレーションによる効率的なGPUメモリとストレージアーキテクチャの実現
- Authors: Haoyang Zhang, Yirui Eric Zhou, Yuqi Xue, Yiqi Liu, and Jian Huang
- Abstract要約: 統一GPUメモリとストレージアーキテクチャ、G10。
G10はホストメモリ、GPUメモリ、フラッシュメモリを統一メモリ空間に統合する。
実験によると、G10は最先端のGPUメモリソリューションを最大1.75$times$で上回っている。
- 参考スコア(独自算出の注目度): 5.752074124514541
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To break the GPU memory wall for scaling deep learning workloads, a variety
of architecture and system techniques have been proposed recently. Their
typical approaches include memory extension with flash memory and direct
storage access. However, these techniques still suffer from suboptimal
performance and introduce complexity to the GPU memory management, making them
hard to meet the scalability requirement of deep learning workloads today. In
this paper, we present a unified GPU memory and storage architecture named G10
driven by the fact that the tensor behaviors of deep learning workloads are
highly predictable. G10 integrates the host memory, GPU memory, and flash
memory into a unified memory space, to scale the GPU memory capacity while
enabling transparent data migrations. Based on this unified GPU memory and
storage architecture, G10 utilizes compiler techniques to characterize the
tensor behaviors in deep learning workloads. Therefore, it can schedule data
migrations in advance by considering the available bandwidth of flash memory
and host memory. The cooperative mechanism between deep learning compilers and
the unified memory architecture enables G10 to hide data transfer overheads in
a transparent manner. We implement G10 based on an open-source GPU simulator.
Our experiments demonstrate that G10 outperforms state-of-the-art GPU memory
solutions by up to 1.75$\times$, without code modifications to deep learning
workloads. With the smart data migration mechanism, G10 can reach 90.3\% of the
performance of the ideal case assuming unlimited GPU memory.
- Abstract(参考訳): ディープラーニングワークロードをスケールするためのGPUメモリウォールを壊すために、さまざまなアーキテクチャとシステム技術が最近提案されている。
典型的なアプローチとしては、フラッシュメモリによるメモリ拡張と直接ストレージアクセスがある。
しかしながら、これらのテクニックは依然として最適化されていないパフォーマンスに苦しめられ、gpuメモリ管理に複雑さをもたらし、今日のディープラーニングワークロードのスケーラビリティ要件を満たすことが困難になっている。
本稿では,ディープラーニングワークロードのテンソル挙動が極めて予測可能であることから,g10と呼ばれる統一gpuメモリとストレージアーキテクチャを提案する。
G10はホストメモリ、GPUメモリ、フラッシュメモリを統一メモリ空間に統合し、透過的なデータマイグレーションを可能にしながらGPUメモリ容量を拡大する。
この統合GPUメモリとストレージアーキテクチャに基づいて、G10はコンパイラ技術を使用して、ディープラーニングワークロードのテンソル動作を特徴づける。
そのため、フラッシュメモリとホストメモリの帯域幅を考慮し、データマイグレーションを事前にスケジュールすることができる。
ディープラーニングコンパイラと統一メモリアーキテクチャの協調メカニズムにより、G10はデータ転送オーバーヘッドを透過的に隠蔽することができる。
オープンソースGPUシミュレータに基づくG10を実装した。
我々の実験によると、G10は、ディープラーニングのワークロードにコード修正を加えることなく、最先端のGPUメモリソリューションを最大1.75$\times$で上回っている。
スマートデータマイグレーションメカニズムにより、G10は無制限のGPUメモリを想定した理想的なケースのパフォーマンスの90.3\%に達することができる。
関連論文リスト
- Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。
アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。
状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文 参考訳(メタデータ) (2024-12-02T06:57:46Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - GEAR: A GPU-Centric Experience Replay System for Large Reinforcement
Learning Models [32.23853007467266]
GEARは、大きなシーケンスモデル(トランスなど)でスケーラブルな強化学習(RL)を実現するように設計されている。
ホストメモリへのゼロコピーアクセスを使用してトラジェクトリを収集できるGPUカーネルと、InfiniBand上のリモート指向メモリアクセスを備える。
Gearは、最先端の大規模RLモデルをトレーニングする際に、Reverbよりも最大6倍パフォーマンスレベルを達成することができる。
論文 参考訳(メタデータ) (2023-10-08T15:39:43Z) - XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin
Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。
独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。
XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2022-07-14T17:59:37Z) - Hierarchical Memory Matching Network for Video Object Segmentation [38.24999776705497]
本稿では,時間的スムーズさを活用しながら,複数スケールのメモリ実行を可能にする2つの高度なメモリ読み取りモジュールを提案する。
まず,非局所的な高密度メモリ読み出しを代替するガイド付きメモリマッチングモジュールを提案する。
階層型メモリマッチング方式を導入し、大小のメモリを粗大のメモリで読み取るトップkガイド型メモリマッチングモジュールを提案する。
論文 参考訳(メタデータ) (2021-09-23T14:36:43Z) - TENSILE: A Tensor granularity dynamic GPU memory scheduler method
towards multiple dynamic workloads system [9.86589655261934]
TENSILEは、GPUメモリピークを減らすために、テンソル粒度でGPUメモリを管理する方法である。
我々は、自身のディープラーニングフレームワークにTENSILEを実装し、その性能を評価した。
論文 参考訳(メタデータ) (2021-05-27T17:46:16Z) - Large Graph Convolutional Network Training with GPU-Oriented Data
Communication Architecture [19.2129567657739]
グラフ畳み込みネットワーク(gcns)は大規模グラフベースのレコメンデーションシステムでますます採用されている。
現在のGCNトレーニングシステムは、フィーチャーテーブルをホストメモリに保持し、スパース機能の収集にCPUに依存している。
しかしこのアプローチは、ホストメモリの帯域幅とCPUに大きなプレッシャーを与えます。
本稿では,GPUスレッドがホストメモリのスパース機能に直接アクセスするGCNトレーニングのための新しいGPU指向データ通信手法を提案する。
論文 参考訳(メタデータ) (2021-03-04T21:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。