論文の概要: TENSILE: A Tensor granularity dynamic GPU memory scheduler method
towards multiple dynamic workloads system
- arxiv url: http://arxiv.org/abs/2105.13336v1
- Date: Thu, 27 May 2021 17:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:28:51.025888
- Title: TENSILE: A Tensor granularity dynamic GPU memory scheduler method
towards multiple dynamic workloads system
- Title(参考訳): TENSILE: 複数の動的ワークロードシステムに向けたテンソル粒度動的GPUメモリスケジューラ手法
- Authors: Kaixin Zhang, Hongzhi Wang, Tongxin Li, Han Hu, Jiye Qiu, Songling Zou
- Abstract要約: TENSILEは、GPUメモリピークを減らすために、テンソル粒度でGPUメモリを管理する方法である。
我々は、自身のディープラーニングフレームワークにTENSILEを実装し、その性能を評価した。
- 参考スコア(独自算出の注目度): 9.86589655261934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep learning has been an area of intense researching. However, as
a kind of computing intensive task, deep learning highly relies on the the
scale of the GPU memory, which is usually expensive and scarce. Although there
are some extensive works have been proposed for dynamic GPU memory management,
they are hard to be applied to systems with multitasking dynamic workloads,
such as in-database machine learning system.
In this paper, we demonstrated TENSILE, a method of managing GPU memory in
tensor granularity to reduce the GPU memory peak, with taking the multitasking
dynamic workloads into consideration. As far as we know, TENSILE is the first
method which is designed to manage multiple workloads' GPU memory using. We
implement TENSILE on our own deep learning framework, and evaluated its
performance. The experiment results shows that our method can achieve less time
overhead than prior works with more GPU memory saved.
- Abstract(参考訳): 近年、深層学習は激しい研究の領域となっている。
しかし、計算集約的なタスクの一種として、ディープラーニングはgpuメモリの規模に大きく依存しています。
動的GPUメモリ管理には広範な研究が提案されているが、データベース内機械学習システムのようなマルチタスク動的ワークロードを持つシステムに適用することは困難である。
本稿では,GPUメモリをテンソル粒度で管理し,GPUメモリのピークを減らし,マルチタスクの動的ワークロードを考慮に入れたTENSILEを実演した。
私たちが知る限り、テンションは複数のワークロードのgpuメモリを管理するために設計された最初の方法です。
我々は、自身のディープラーニングフレームワークにTENSILEを実装し、その性能を評価した。
実験の結果,本手法は,より多くのgpuメモリを節約した前処理よりも少ない時間オーバーヘッドを達成できることがわかった。
関連論文リスト
- Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - Less Memory Means smaller GPUs: Backpropagation with Compressed Activations [1.7065506903618906]
深層ニューラルネットワーク(DNN)の規模は、計算リソースの要件が等しく急速に増大している。
最近の多くのアーキテクチャ、特にLarge Language Modelsは、何千ものアクセラレーターを持つスーパーコンピュータを使って訓練されなければならない。
このアプローチにより、より長いトレーニングスケジュールのコストで、ピークメモリ使用量を29%削減することが可能になります。
論文 参考訳(メタデータ) (2024-09-18T11:57:05Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - G10: Enabling An Efficient Unified GPU Memory and Storage Architecture
with Smart Tensor Migrations [5.752074124514541]
統一GPUメモリとストレージアーキテクチャ、G10。
G10はホストメモリ、GPUメモリ、フラッシュメモリを統一メモリ空間に統合する。
実験によると、G10は最先端のGPUメモリソリューションを最大1.75$times$で上回っている。
論文 参考訳(メタデータ) (2023-10-13T23:32:28Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - A Frequency-aware Software Cache for Large Recommendation System
Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。
本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。
提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文 参考訳(メタデータ) (2022-08-08T12:08:05Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Survey on Large Scale Neural Network Training [48.424512364338746]
現代のディープニューラルネットワーク(DNN)は、トレーニング中にウェイト、アクティベーション、その他の中間テンソルを保存するためにかなりのメモリを必要とする。
この調査は、より効率的なDNNトレーニングを可能にするアプローチの体系的な概要を提供する。
論文 参考訳(メタデータ) (2022-02-21T18:48:02Z) - Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。
この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。
本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文 参考訳(メタデータ) (2021-07-02T14:37:13Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。