論文の概要: Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2402.07033v2
- Date: Thu, 27 Feb 2025 23:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:38:42.558963
- Title: Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models
- Title(参考訳): Fiddler: ベンチマークモデルの高速推論のためのCPU-GPUオーケストレーション
- Authors: Keisuke Kamahori, Tian Tang, Yile Gu, Kan Zhu, Baris Kasikci,
- Abstract要約: Fiddlerは、限られたGPUリソースを持つMoEモデルのリソース効率の高い推論システムである。
評価の結果、特定のシナリオを最適化する最先端システムとは異なり、Fiddlerはすべてのシナリオでより優れた性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 4.169398114248568
- License:
- Abstract: Large Language Models (LLMs) with the Mixture-of-Experts (MoE) architectures have shown promising performance on various tasks. However, due to the huge model sizes, running them in resource-constrained environments where the GPU memory is not abundant is challenging. Some existing systems propose to use CPU resources to solve that, but they either suffer from the significant overhead of frequently moving data between CPU and GPU, or fail to consider distinct characteristics of CPUs and GPUs. This paper proposes Fiddler, a resource-efficient inference system for MoE models with limited GPU resources. Fiddler strategically utilizes CPU and GPU resources by determining the optimal execution strategy. Our evaluation shows that, unlike state-of-the-art systems that optimize for specific scenarios such as single batch inference or long prefill, Fiddler performs better in all scenarios. Compared against different baselines, Fiddler achieves 1.26 times speed up in single batch inference, 1.30 times in long prefill processing, and 11.57 times in beam search inference. The code of Fiddler is publicly available at https://github.com/efeslab/fiddler.
- Abstract(参考訳): 大規模言語モデル(LLM)とMixture-of-Experts(MoE)アーキテクチャは、様々なタスクで有望なパフォーマンスを示している。
しかし、巨大なモデルサイズのため、GPUメモリが不足しているリソース制約のある環境でそれらを実行することは困難である。
既存のシステムでは、それを解決するためにCPUリソースを使用することを提案するが、CPUとGPUの間で頻繁にデータを移動させるという重大なオーバーヘッドに悩まされるか、CPUとGPUの異なる特性を考慮できないかのいずれかである。
本稿では、限られたGPUリソースを持つMoEモデルのためのリソース効率の高い推論システムであるFiddlerを提案する。
Fiddlerは、最適な実行戦略を決定することによって、CPUとGPUリソースを戦略的に活用する。
評価の結果,単一バッチ推論や長期プレフィルといった特定のシナリオに対して最適化を行う最先端システムとは異なり,Fiddlerはすべてのシナリオにおいて優れた性能を発揮することがわかった。
異なるベースラインと比較して、Fiddlerは単一のバッチ推論で1.26倍、長いプリフィル処理で1.30倍、ビームサーチ推論で11.57倍のスピードアップを達成する。
Fiddlerのコードはhttps://github.com/efeslab/fiddler.comで公開されている。
関連論文リスト
- Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference [20.68731158617374]
Dovetailは、GPUにドラフトモデルをデプロイしてドラフトトークンを生成し、ターゲットモデルをCPU上で並列検証可能にするアプローチである。
Dovetailは3GBのVRAMを使用してLLaMA2-Chat-7Bで毎秒5.86トークンの推論速度を実現しており、CPUのみの推論よりも約2.77倍改善されている。
論文 参考訳(メタデータ) (2024-12-25T15:45:18Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - Practical offloading for fine-tuning LLM on commodity GPU via learned sparse projectors [11.127604539303373]
微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。
このメモリ課題の一般的な解決策は、計算とデータをGPUからCPUにオフロードすることだ。
本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP-Offload を提案する。
論文 参考訳(メタデータ) (2024-06-14T16:59:11Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - FFCV: Accelerating Training by Removing Data Bottlenecks [84.89623507733963]
本稿では,機械学習モデルトレーニングを容易かつ高速に行うためのライブラリであるFFCVを紹介する。
トレーニングプロセスから(しばしば微妙な)データのボトルネックを取り除くことで、モデルトレーニングを高速化する。
詳細なインストール手順、ドキュメンテーション、Slackサポートチャネルはhttps://ffcv.io/.com/で公開されている。
論文 参考訳(メタデータ) (2023-06-21T19:06:41Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。