論文の概要: Harnessing Your DRAM and SSD for Sustainable and Accessible LLM Inference with Mixed-Precision and Multi-level Caching
- arxiv url: http://arxiv.org/abs/2410.14740v1
- Date: Thu, 17 Oct 2024 08:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:16:24.923520
- Title: Harnessing Your DRAM and SSD for Sustainable and Accessible LLM Inference with Mixed-Precision and Multi-level Caching
- Title(参考訳): 混合精度とマルチレベルキャッシングによる持続的かつアクセシブルなLCM推論のためのDRAMとSSDのハーネス化
- Authors: Jie Peng, Zhang Cao, Huaizhi Qu, Zhengyu Zhang, Chang Guo, Yanyong Zhang, Zhichao Zhang, Tianlong Chen,
- Abstract要約: 本稿では,スパースリソース制約の推論を可能にするモデルモジュール化を用いた混合精度アルゴリズムを提案する。
M2Cacheはまず神経細胞をスパースに変調し、その重要なランキングを作成する。
計算要求を減らすために、重み空間に動的混合精度量子化機構を採用する。
- 参考スコア(独自算出の注目度): 38.90838346110074
- License:
- Abstract: Although Large Language Models (LLMs) have demonstrated remarkable capabilities, their massive parameter counts and associated extensive computing make LLMs' deployment the main part of carbon emission from nowadays AI applications. Compared to modern GPUs like H$100$, it would be significantly carbon-sustainable if we could leverage old-fashioned GPUs such as M$40$ (as shown in Figure~\ref{fig:tisser}, M$40$ only has one third carbon emission of H$100$'s) for LLM servings. However, the limited High Bandwidth Memory (HBM) available on such GPU often cannot support the loading of LLMs due to the gigantic model size and intermediate activation data, making their serving challenging. For instance, a LLaMA2 model with $70$B parameters typically requires $128$GB for inference, which substantially surpasses $24$GB HBM in a $3090$ GPU and remains infeasible even considering the additional $64$GB DRAM. To address this challenge, this paper proposes a mixed-precision with a model modularization algorithm to enable LLM inference on outdated hardware with resource constraints. (The precision denotes the numerical precision like FP16, INT8, INT4) and multi-level caching (M2Cache).) Specifically, our M2Cache first modulizes neurons in LLM and creates their importance ranking. Then, it adopts a dynamic sparse mixed-precision quantization mechanism in weight space to reduce computational demands and communication overhead at each decoding step. It collectively lowers the operational carbon emissions associated with LLM inference. Moreover, M2Cache introduces a three-level cache management system with HBM, DRAM, and SSDs that complements the dynamic sparse mixed-precision inference. To enhance communication efficiency, M2Cache maintains a neuron-level mixed-precision LRU cache in HBM, a larger layer-aware cache in DRAM, and a full model in SSD.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい能力を示しているが、その膨大なパラメータ数と関連する広範な計算により、LLMのデプロイメントは、現在のAIアプリケーションからの二酸化炭素排出量の主要な部分となっている。
H$100$のような現代的なGPUと比較して、M$40$(図~\ref{fig:tisser}に示すように、M$40$はLLMサーブに対してH$100$sの3分の1の炭素エミッションしか持たない)のような旧来のGPUを活用することができれば、はるかに炭素持続可能である。
しかし、そのようなGPUで利用可能なHBM(High Bandwidth Memory)は、巨大なモデルサイズと中間アクティベーションデータのためにLLMのロードをサポートできないことが多いため、その処理は困難である。
例えば、70$Bのパラメータを持つLLaMA2モデルは推論に128$GBを必要とし、3090$のGPUで24$GB HBMを大幅に超え、追加の64$GB DRAMを考慮しても実現不可能である。
そこで本研究では,資源制約のある古いハードウェア上でのLCM推論を実現するために,モデルモジュール化アルゴリズムを用いた混合精度を提案する。
(FP16、INT8、INT4)、マルチレベルキャッシュ(M2Cache)などの数値精度を示す。
具体的には、M2CacheはまずLLM内のニューロンを変調し、その重要なランキングを作成する。
次に、重み空間における動的スパース混合精度量子化機構を採用し、各復号ステップにおける計算要求と通信オーバーヘッドを低減する。
LLM推論に伴う運転中の炭素排出量を総じて減少させる。
さらに、M2Cacheは、動的スパース混合精度推論を補完するHBM、DRAM、SSDを備えた3レベルキャッシュ管理システムを導入している。
通信効率を向上させるため、M2CacheはHBMのニューロンレベルの混合精度LRUキャッシュ、DRAMの層認識キャッシュ、SSDのフルモデルを維持している。
関連論文リスト
- InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference [10.115950753431528]
大規模言語モデル(LLM)は、生成AIにおいて重要なマイルストーンである。
オフラインLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求をエスカレートする。
いくつかのコスト効率の良いソリューションは、ホストメモリを利用するか、オフラインの推論シナリオのストレージコストを削減するよう最適化されている。
InstInferは、最も性能クリティカルな計算(つまり、復号フェーズにおける注意)とデータ(すなわちKVキャッシュ)を計算ストレージドライブ(CSD)にオフロードする。
InstInferがロングシーケンス推論のためのスループットを改善
論文 参考訳(メタデータ) (2024-09-08T06:06:44Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts [9.94373711477696]
GPT-4のようなモノリシックな大規模言語モデル(LLM)は、近代的な生成AIアプリケーションへの道を開いた。
現代のAIアクセラレーターの計算-メモリ比の不均等な増加は、メモリウォールを生み出した。
コンポジション・オブ・エキスパート(CoE)は、トレーニングと提供のコストと複雑さを下げる代替のモジュラーアプローチである。
論文 参考訳(メタデータ) (2024-05-13T07:32:45Z) - FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models
for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。
本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。
ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文 参考訳(メタデータ) (2024-02-21T05:03:17Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Towards MoE Deployment: Mitigating Inefficiencies in Mixture-of-Expert
(MoE) Inference [7.743308058511418]
言語モデリング(LM)と機械翻訳(MT)という2つのMoEワークロードの特徴を提供する。
本研究では,(1)動的ゲーティング,(2)エキスパートバッファリング,(3)エキスパートロードバランシングの3つの最適化手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T19:30:15Z) - Efficient Deep Learning Using Non-Volatile Memory Technology [12.866655564742889]
ディープラーニング(DL)アプリケーションのためのアーキテクチャにおいて、NVMベースのキャッシュを特徴付け、モデル化し、分析するための包括的なフレームワークであるDeepNVM++を紹介します。
アイソ容量の場合、STT-MRAMとSOT-MRAMは、従来のキャッシュと比較して最大3.8倍および4.7倍のエネルギー遅延生成物(EDP)と2.4倍および2.8倍の領域還元を提供する。
DeepNVM++ は STT-/SOT-MRAM 技術で実証されており、最後のレベルキャッシュのための NVM 技術のキャラクタリゼーション、モデリング、分析に使用することができる。
論文 参考訳(メタデータ) (2022-06-27T19:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。