論文の概要: Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts
Models
- arxiv url: http://arxiv.org/abs/2402.07033v1
- Date: Sat, 10 Feb 2024 19:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 17:55:18.267807
- Title: Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts
Models
- Title(参考訳): Fiddler: ベンチマークモデルの高速推論のためのCPU-GPUオーケストレーション
- Authors: Keisuke Kamahori, Yile Gu, Kan Zhu, Baris Kasikci
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャに基づくLarge Language Models (LLM)は、様々なタスクで有望なパフォーマンスを示している。
GPUメモリリソースが不足しているリソース制約のある設定で実行するのは、巨大なモデルサイズのため、難しい。
我々は、MoEモデルのためのCPU-GPUオーケストレーションを備えたリソース効率のよい推論エンジンであるFiddlerを提案する。
- 参考スコア(独自算出の注目度): 4.88656432663527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) based on Mixture-of-Experts (MoE) architecture
are showing promising performance on various tasks. However, running them on
resource-constrained settings, where GPU memory resources are not abundant, is
challenging due to huge model sizes. Existing systems that offload model
weights to CPU memory suffer from the significant overhead of frequently moving
data between CPU and GPU. In this paper, we propose Fiddler, a
resource-efficient inference engine with CPU-GPU orchestration for MoE models.
The key idea of Fiddler is to use the computation ability of the CPU to
minimize the data movement between the CPU and GPU. Our evaluation shows that
Fiddler can run the uncompressed Mixtral-8x7B model, which exceeds 90GB in
parameters, to generate over $3$ tokens per second on a single GPU with 24GB
memory, showing an order of magnitude improvement over existing methods. The
code of Fiddler is publicly available at
\url{https://github.com/efeslab/fiddler}
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャに基づくLarge Language Models (LLM)は、様々なタスクで有望なパフォーマンスを示している。
しかし、GPUメモリリソースが豊富でないリソース制約された環境でそれらを実行することは、巨大なモデルサイズのために難しい。
モデルウェイトをCPUメモリにオフロードする既存のシステムは、CPUとGPUの間で頻繁にデータを移動させるという大きなオーバーヘッドに悩まされている。
本稿では,MoEモデルのためのCPU-GPUオーケストレーションを備えた資源効率の高い推論エンジンであるFiddlerを提案する。
Fiddlerの主なアイデアは、CPUの計算能力を使用して、CPUとGPU間のデータ移動を最小限にすることである。
評価の結果,パラメータが90gbを超えるuncompressed mixtral-8x7bモデルを実行して,24gbのメモリを持つシングルgpu上で毎秒3ドル以上のトークンを生成することができた。
Fiddlerのコードは \url{https://github.com/efeslab/fiddler} で公開されている。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - Hybrid quantum programming with PennyLane Lightning on HPC platforms [0.0]
PennyLaneのLightningスイートは、CPU、GPU、HPCネイティブアーキテクチャとワークロードをターゲットにした高性能なステートベクタシミュレータのコレクションである。
QAOA、VQE、合成ワークロードなどの量子アプリケーションは、サポート対象の古典的コンピューティングアーキテクチャを実証するために実装されている。
論文 参考訳(メタデータ) (2024-03-04T22:01:03Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - FFCV: Accelerating Training by Removing Data Bottlenecks [84.89623507733963]
本稿では,機械学習モデルトレーニングを容易かつ高速に行うためのライブラリであるFFCVを紹介する。
トレーニングプロセスから(しばしば微妙な)データのボトルネックを取り除くことで、モデルトレーニングを高速化する。
詳細なインストール手順、ドキュメンテーション、Slackサポートチャネルはhttps://ffcv.io/.com/で公開されている。
論文 参考訳(メタデータ) (2023-06-21T19:06:41Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T04:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。