論文の概要: Superpipeline: A Universal Approach for Reducing GPU Memory Usage in Large Models
- arxiv url: http://arxiv.org/abs/2410.08791v1
- Date: Fri, 11 Oct 2024 13:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 22:05:43.539494
- Title: Superpipeline: A Universal Approach for Reducing GPU Memory Usage in Large Models
- Title(参考訳): Superpipeline: 大規模モデルにおけるGPUメモリ使用量削減のためのユニバーサルアプローチ
- Authors: Reza Abbasi, Sernam Lim,
- Abstract要約: 本稿では,制約ハードウェア上での大規模AIモデルの実行を最適化するフレームワークであるSuperpipelineを紹介する。
Superpipelineは、モデル精度と許容する処理速度を維持しながら、実験でGPUメモリ使用量を最大60%削減します。
- 参考スコア(独自算出の注目度): 40.41898661688188
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid growth in machine learning models, especially in natural language processing and computer vision, has led to challenges when running these models on hardware with limited resources. This paper introduces Superpipeline, a new framework designed to optimize the execution of large AI models on constrained hardware during both training and inference. Our approach involves dynamically managing model execution by dividing models into individual layers and efficiently transferring these layers between GPU and CPU memory. Superpipeline reduces GPU memory usage by up to 60% in our experiments while maintaining model accuracy and acceptable processing speeds. This allows models that would otherwise exceed available GPU memory to run effectively. Unlike existing solutions that focus mainly on inference or specific model types, Superpipeline can be applied to large language models (LLMs), vision-language models (VLMs), and vision-based models. We tested Superpipeline's performance across various models and hardware setups. The method includes two key parameters that allow fine-tuning the balance between GPU memory use and processing speed. Importantly, Superpipeline does not require retraining or changing model parameters, ensuring that the original model's output remains unchanged. Superpipeline's simplicity and flexibility make it useful for researchers and professionals working with advanced AI models on limited hardware. It enables the use of larger models or bigger batch sizes on existing hardware, potentially speeding up innovation across many machine learning applications. This work marks an important step toward making advanced AI models more accessible and optimizing their deployment in resource-limited environments. The code for Superpipeline is available at https://github.com/abbasiReza/super-pipeline.
- Abstract(参考訳): 機械学習モデル、特に自然言語処理とコンピュータビジョンの急速な成長は、これらのモデルを限られたリソースでハードウェア上で実行する際の課題につながっている。
本稿では,トレーニングと推論の両方において,制約ハードウェア上での大規模AIモデルの実行を最適化する新しいフレームワークであるSuperpipelineを紹介する。
このアプローチでは、モデルを個々のレイヤに分割することでモデル実行を動的に管理し、これらのレイヤをGPUとCPUメモリ間で効率的に転送する。
Superpipelineは、モデル精度と許容する処理速度を維持しながら、実験でGPUメモリ使用量を最大60%削減します。
これにより、利用可能なGPUメモリを超えるモデルを効果的に実行することが可能になる。
推論や特定のモデルタイプに主にフォーカスする既存のソリューションとは異なり、Superpipelineは大規模言語モデル(LLM)、視覚言語モデル(VLM)、ビジョンベースモデルに適用できる。
Superpipelineのパフォーマンスを、さまざまなモデルとハードウェアセットアップでテストしました。
この手法には、GPUメモリ使用量と処理速度のバランスを微調整できる2つの重要なパラメータが含まれている。
重要なのは、Superpipelineはモデルのパラメータの再トレーニングや変更を必要とせず、元のモデルの出力が変わらないことを保証することだ。
Superpipelineのシンプルさと柔軟性は、限られたハードウェア上で高度なAIモデルを扱う研究者や専門家にとって有用である。
これにより、既存のハードウェアでより大きなモデルやより大きなバッチサイズを使用することが可能になり、多くの機械学習アプリケーションにまたがるイノベーションをスピードアップする可能性がある。
この作業は、高度なAIモデルをよりアクセスしやすくし、リソース制限された環境でのデプロイメントを最適化するための重要なステップとなる。
Superpipelineのコードはhttps://github.com/abbasiReza/super-pipeline.comで公開されている。
関連論文リスト
- eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - Merak: An Efficient Distributed DNN Training Framework with Automated 3D
Parallelism for Giant Foundation Models [14.903847751841221]
資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。
Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。
Merakは1.5、2.5、8.3、200億のパラメータを持つモデルの最先端の3D並列化フレームワークをそれぞれ1.42X、1.39X、1.43X、1.61Xまで高速化することができる。
論文 参考訳(メタデータ) (2022-06-10T09:15:48Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Harmony: Overcoming the hurdles of GPU memory capacity to train massive
DNN models on commodity servers [13.620650014358413]
ディープニューラルネットワーク(DNN)は、過去10年間で、複雑さとサイズが指数関数的に増加した。
限られたリソースしかアクセスできない研究者にとって大きな課題の1つは、モデルサイズに比べてメモリ容量が限られていることである。
論文 参考訳(メタデータ) (2022-02-02T22:16:27Z) - Hydra: A System for Large Multi-Model Deep Learning [3.571623412954477]
本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。
次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。
実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
論文 参考訳(メタデータ) (2021-10-16T18:13:57Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。