論文の概要: Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable
Mixture-of-Expert Inference
- arxiv url: http://arxiv.org/abs/2308.12066v2
- Date: Fri, 22 Sep 2023 15:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 18:03:11.316993
- Title: Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable
Mixture-of-Expert Inference
- Title(参考訳): Pre-gated MoE: 高速かつスケーラブルな混合スペクトル推論のためのアルゴリズムシステム共設計
- Authors: Ranggi Hwang, Jianyu Wei, Shijie Cao, Changho Hwang, Xiaohu Tang, Ting
Cao, Mao Yang
- Abstract要約: Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。
プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。
我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
- 参考スコア(独自算出の注目度): 24.371074891864936
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) based on transformers have made significant
strides in recent years, the success of which is driven by scaling up their
model size. Despite their high algorithmic performance, the computational and
memory requirements of LLMs present unprecedented challenges. To tackle the
high compute requirements of LLMs, the Mixture-of-Experts (MoE) architecture
was introduced which is able to scale its model size without proportionally
scaling up its computational requirements. Unfortunately, MoE's high memory
demands and dynamic activation of sparse experts restrict its applicability to
real-world problems. Previous solutions that offload MoE's memory-hungry expert
parameters to CPU memory fall short because the latency to migrate activated
experts from CPU to GPU incurs high performance overhead. Our proposed
Pre-gated MoE system effectively tackles the compute and memory challenges of
conventional MoE architectures using our algorithm-system co-design. Pre-gated
MoE employs our novel pre-gating function which alleviates the dynamic nature
of sparse expert activation, allowing our proposed system to address the large
memory footprint of MoEs while also achieving high performance. We demonstrate
that Pre-gated MoE is able to improve performance, reduce GPU memory
consumption, while also maintaining the same level of model quality. These
features allow our Pre-gated MoE system to cost-effectively deploy large-scale
LLMs using just a single GPU with high performance.
- Abstract(参考訳): 近年,トランスフォーマーをベースとした大規模言語モデル(LLM)が大きな進歩を遂げている。
高いアルゴリズム性能にもかかわらず、LLMの計算およびメモリ要求は前例のない課題を呈している。
llmsの高度な計算要件に対処するために、計算要件を比例的にスケールアップすることなくモデルサイズをスケールできるmixed-of-experts(moe)アーキテクチャが導入された。
残念ながら、MoEの高メモリ要求とスパース専門家の動的アクティベーションは、現実世界の問題への適用性を制限している。
MoEのメモリ不足の専門家パラメータをCPUメモリにオフロードする以前のソリューションでは、アクティベートされた専門家をCPUからGPUに移行するのにレイテンシがかかるため、パフォーマンス上のオーバーヘッドが発生する。
提案するPre-gated MoEシステムは,従来のMoEアーキテクチャの計算とメモリの課題に対して,アルゴリズム-システム共設計を用いて効果的に対処する。
プレゲートMOEは,スパースエキスパートアクティベーションの動的特性を緩和し,MoEの大規模なメモリフットプリントに対処し,高い性能を実現する。
我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
これらの機能により、Pre-gated MoEシステムは、高パフォーマンスの1つのGPUを使用して、大規模LLMをコスト効率よくデプロイできます。
関連論文リスト
- Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM
Fine-Tuning: A Benchmark [170.47660885570463]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Efficient LLM inference solution on Intel GPU [15.986315440248294]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。
低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。
標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文 参考訳(メタデータ) (2023-12-19T05:40:43Z) - SiDA: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable
Large Mixture-of-Experts Models [20.836988355711995]
Mixture-of-Experts (MoE) は、大規模モデルの時代に好意的なアーキテクチャとして登場した。
しかし、そのような利点を実現することは、しばしばGPUメモリの有効利用に繋がる。
大規模なMoEモデルに適した効率的な推論手法であるSiDAを導入する。
論文 参考訳(メタデータ) (2023-10-29T01:08:55Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - SwapMoE: Efficient Memory-Constrained Serving of Large Sparse MoE Models
via Dynamic Expert Pruning and Swapping [23.60461848152645]
スワップモーエ(SwapMoE)は、チューナブルメモリの予算を扱う、MoEベースで効率的な大規模モデルを実現するためのフレームワークである。
SwapMoEの主な考え方は、仮想エキスパートという、重要な専門家の小さな動的なセットを推論のメインメモリに留めることである。
その結果,様々なメモリ制約下でのSwapMoEの顕著な性能が示された。
論文 参考訳(メタデータ) (2023-08-29T05:25:21Z) - EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models [3.597163516372061]
EdgeMoEは、Mix-of-expert (MoE) LLM用に設計されたデバイス上の推論エンジンである。
ストレージ階層間でモデルを戦略的に分割することで、メモリと計算の効率を両立させる。
競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2023-08-28T06:56:08Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。