Fugu-MT 論文翻訳(概要): Harnessing Your DRAM and SSD for Sustainable and Accessible LLM Inference with Mixed-Precision and Multi-level Caching

論文の概要: Harnessing Your DRAM and SSD for Sustainable and Accessible LLM Inference with Mixed-Precision and Multi-level Caching

arxiv url: http://arxiv.org/abs/2410.14740v1
Date: Thu, 17 Oct 2024 08:33:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.666
Title: Harnessing Your DRAM and SSD for Sustainable and Accessible LLM Inference with Mixed-Precision and Multi-level Caching
Title（参考訳）: 混合精度とマルチレベルキャッシングによる持続的かつアクセシブルなLCM推論のためのDRAMとSSDのハーネス化
Authors: Jie Peng, Zhang Cao, Huaizhi Qu, Zhengyu Zhang, Chang Guo, Yanyong Zhang, Zhichao Zhang, Tianlong Chen,
Abstract要約: 本稿では,スパースリソース制約の推論を可能にするモデルモジュール化を用いた混合精度アルゴリズムを提案する。 M2Cacheはまず神経細胞をスパースに変調し、その重要なランキングを作成する。計算要求を減らすために、重み空間に動的混合精度量子化機構を採用する。
参考スコア（独自算出の注目度）: 38.90838346110074
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Although Large Language Models (LLMs) have demonstrated remarkable capabilities, their massive parameter counts and associated extensive computing make LLMs' deployment the main part of carbon emission from nowadays AI applications. Compared to modern GPUs like H$100$, it would be significantly carbon-sustainable if we could leverage old-fashioned GPUs such as M$40$ (as shown in Figure~\ref{fig:tisser}, M$40$ only has one third carbon emission of H$100$'s) for LLM servings. However, the limited High Bandwidth Memory (HBM) available on such GPU often cannot support the loading of LLMs due to the gigantic model size and intermediate activation data, making their serving challenging. For instance, a LLaMA2 model with $70$B parameters typically requires $128$GB for inference, which substantially surpasses $24$GB HBM in a $3090$ GPU and remains infeasible even considering the additional $64$GB DRAM. To address this challenge, this paper proposes a mixed-precision with a model modularization algorithm to enable LLM inference on outdated hardware with resource constraints. (The precision denotes the numerical precision like FP16, INT8, INT4) and multi-level caching (M2Cache).) Specifically, our M2Cache first modulizes neurons in LLM and creates their importance ranking. Then, it adopts a dynamic sparse mixed-precision quantization mechanism in weight space to reduce computational demands and communication overhead at each decoding step. It collectively lowers the operational carbon emissions associated with LLM inference. Moreover, M2Cache introduces a three-level cache management system with HBM, DRAM, and SSDs that complements the dynamic sparse mixed-precision inference. To enhance communication efficiency, M2Cache maintains a neuron-level mixed-precision LRU cache in HBM, a larger layer-aware cache in DRAM, and a full model in SSD.
Abstract（参考訳）: 大規模言語モデル(LLM)は目覚ましい能力を示しているが、その膨大なパラメータ数と関連する広範な計算により、LLMのデプロイメントは、現在のAIアプリケーションからの二酸化炭素排出量の主要な部分となっている。 H$100$のような現代的なGPUと比較して、M$40$(図~\ref{fig:tisser}に示すように、M$40$はLLMサーブに対してH$100$sの3分の1の炭素エミッションしか持たない)のような旧来のGPUを活用することができれば、はるかに炭素持続可能である。しかし、そのようなGPUで利用可能なHBM(High Bandwidth Memory)は、巨大なモデルサイズと中間アクティベーションデータのためにLLMのロードをサポートできないことが多いため、その処理は困難である。例えば、70$Bのパラメータを持つLLaMA2モデルは推論に128$GBを必要とし、3090$のGPUで24$GB HBMを大幅に超え、追加の64$GB DRAMを考慮しても実現不可能である。そこで本研究では,資源制約のある古いハードウェア上でのLCM推論を実現するために,モデルモジュール化アルゴリズムを用いた混合精度を提案する。 (FP16、INT8、INT4)、マルチレベルキャッシュ(M2Cache)などの数値精度を示す。具体的には、M2CacheはまずLLM内のニューロンを変調し、その重要なランキングを作成する。次に、重み空間における動的スパース混合精度量子化機構を採用し、各復号ステップにおける計算要求と通信オーバーヘッドを低減する。 LLM推論に伴う運転中の炭素排出量を総じて減少させる。さらに、M2Cacheは、動的スパース混合精度推論を補完するHBM、DRAM、SSDを備えた3レベルキャッシュ管理システムを導入している。通信効率を向上させるため、M2CacheはHBMのニューロンレベルの混合精度LRUキャッシュ、DRAMの層認識キャッシュ、SSDのフルモデルを維持している。

関連論文リスト

LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving [28.19296680865433]
大規模ワークロード(LLM)の実現は、特に言語モデルをホストするプロバイダにとって、コストがかかる。モデルとその共有による長いアイドル期間の長期的人気は、このタスクに新たな機会と課題を生み出します。本稿では、GPU共有の可能性を解き放ち、効率とSLO達成を両立させるシステムであるPrismを提案する。
論文参考訳（メタデータ） (2025-05-06T23:38:33Z)
L3: DIMM-PIM Integrated Architecture and Coordination for Scalable Long-Context LLM Inference [6.886434948681708]
大きな言語モデル(LLM)では、長いテキストシーケンスの処理がますます必要になるが、GPUメモリの制限により、メモリ容量と帯域幅のトレードオフが困難になる。重要なメモリボトルネックは、マルチヘッドアテンションの復号フェーズにある。本稿では,DIMM-PIMとGPUデバイスを統合したハードウェア・ソフトウェア共同設計システムであるL3を提案する。
論文参考訳（メタデータ） (2025-04-24T14:14:07Z)
MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models [72.61076288351201]
メモリ効率の良いオフロードミニシーケンス推論(MOM)を提案する。 MOMは重要なレイヤを小さな“ミニシーケンス”に分割し、KVキャッシュのオフロードとシームレスに統合する。 Meta-Llama-3.2-8Bでは、単一のA100 80GB GPU上での最大コンテキスト長を155kから455kに拡張する。
論文参考訳（メタデータ） (2025-04-16T23:15:09Z)
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,CoLAとそのメモリ効率向上実装であるCoLA-Mを紹介する。モデルアクティベーションにおいて広く観測される低ランク構造を利用して、モデルサイズを削減し、モデルのキャパシティを向上し、トレーニング効率を向上させる。 6000万から70億のパラメータを持つLLaMAモデルの実験では、CoLAはコンピューティングコストを$bf 2pmbtimes$で削減し、フルランクレベルのパフォーマンスを維持しながら、トレーニングスループットを$bf 1.86pmbtimes$で改善している。
論文参考訳（メタデータ） (2025-02-16T01:05:16Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference [10.115950753431528]
大規模言語モデル(LLM)は、生成AIにおいて重要なマイルストーンである。オフラインLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求をエスカレートする。いくつかのコスト効率の良いソリューションは、ホストメモリを利用するか、オフラインの推論シナリオのストレージコストを削減するよう最適化されている。 InstInferは、最も性能クリティカルな計算(つまり、復号フェーズにおける注意)とデータ(すなわちKVキャッシュ)を計算ストレージドライブ(CSD)にオフロードする。 InstInferがロングシーケンス推論のためのスループットを改善
論文参考訳（メタデータ） (2024-09-08T06:06:44Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts [9.94373711477696]
GPT-4のようなモノリシックな大規模言語モデル(LLM)は、近代的な生成AIアプリケーションへの道を開いた。現代のAIアクセラレーターの計算-メモリ比の不均等な増加は、メモリウォールを生み出した。コンポジション・オブ・エキスパート(CoE)は、トレーニングと提供のコストと複雑さを下げる代替のモジュラーアプローチである。
論文参考訳（メタデータ） (2024-05-13T07:32:45Z)
FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文参考訳（メタデータ） (2024-02-21T05:03:17Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Towards MoE Deployment: Mitigating Inefficiencies in Mixture-of-Expert (MoE) Inference [7.743308058511418]
言語モデリング(LM)と機械翻訳(MT)という2つのMoEワークロードの特徴を提供する。本研究では,(1)動的ゲーティング,(2)エキスパートバッファリング,(3)エキスパートロードバランシングの3つの最適化手法を提案する。
論文参考訳（メタデータ） (2023-03-10T19:30:15Z)
Efficient Deep Learning Using Non-Volatile Memory Technology [12.866655564742889]
ディープラーニング(DL)アプリケーションのためのアーキテクチャにおいて、NVMベースのキャッシュを特徴付け、モデル化し、分析するための包括的なフレームワークであるDeepNVM++を紹介します。アイソ容量の場合、STT-MRAMとSOT-MRAMは、従来のキャッシュと比較して最大3.8倍および4.7倍のエネルギー遅延生成物(EDP)と2.4倍および2.8倍の領域還元を提供する。 DeepNVM++ は STT-/SOT-MRAM 技術で実証されており、最後のレベルキャッシュのための NVM 技術のキャラクタリゼーション、モデリング、分析に使用することができる。
論文参考訳（メタデータ） (2022-06-27T19:27:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。