論文の概要: Mixture of Experts with Mixture of Precisions for Tuning Quality of Service
- arxiv url: http://arxiv.org/abs/2407.14417v2
- Date: Mon, 9 Sep 2024 16:34:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 01:41:10.446350
- Title: Mixture of Experts with Mixture of Precisions for Tuning Quality of Service
- Title(参考訳): サービス品質調整のための精度混合専門家の混合
- Authors: HamidReza Imani, Abdolah Amirany, Tarek El-Ghazawi,
- Abstract要約: 本稿では,MoEモデルの効率的なデプロイのための適応型サービス方式を提案する。
量子化の専門家の数を動的に決定することにより、スループットとモデル品質をチューニングするためのきめ細かい設定を提供する。
その結果、動的かつ精度の高いアプリケーションにおける我々のアプローチの実用性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing demand for deploying large Mixture-of-Experts (MoE) models in resource-constrained environments necessitates efficient approaches to address their high memory and computational requirements challenges. Moreover, given that tasks come in different user-defined constraints and the available resources change over time in multi-tenant environments, it is necessary to design an approach which provides a flexible configuration space. This paper presents an adaptive serving approach for the efficient deployment of MoE models, capitalizing on partial quantization of the experts. By dynamically determining the number of quantized experts and their distribution across CPU and GPU, our approach explores the Pareto frontier and offers a fine-grained range of configurations for tuning throughput and model quality. Our evaluation on an NVIDIA A100 GPU using a Mixtral 8x7B MoE model for three language modelling benchmarks demonstrates that the throughput of token generation can be adjusted from 0.63 to 13.00 token per second. This enhancement comes with a marginal perplexity increase of 3.81 to 4.00, 13.59 to 14.17, and 7.24 to 7.40 for WikiText2, PTB, and C4 datasets respectively under maximum quantization. These results highlight the practical applicability of our approach in dynamic and accuracy-sensitive applications where both memory usage and output quality are important.
- Abstract(参考訳): リソース制約のある環境に大規模なMixture-of-Experts(MoE)モデルをデプロイする需要が高まっているため、高いメモリと計算要求に対処するための効率的なアプローチが必要である。
さらに、タスクが異なるユーザ定義の制約に収まり、利用可能なリソースがマルチテナント環境で時間とともに変化することを考慮すれば、柔軟な構成空間を提供するアプローチを設計する必要がある。
本稿では,MoEモデルを効率よく展開するための適応型サービス方式を提案する。
量子化された専門家の数を動的に決定し、CPUとGPUにまたがる分布を測定することで、当社のアプローチはParetoフロンティアを探索し、スループットとモデル品質をチューニングするためのきめ細かい設定を提供する。
3つの言語モデリングベンチマークのためのMixtral 8x7B MoEモデルを用いたNVIDIA A100 GPUの評価は、トークン生成のスループットが毎秒0.63から13.00に調整可能であることを示す。
この拡張は、それぞれ最大量子化の下で、WikiText2、TB、C4データセットに対して3.81から4.00、13.59から14.17、および7.24から7.40の限界パープレキシティが増大する。
これらの結果は、メモリ使用量と出力品質の両方が重要である動的かつ精度に敏感なアプリケーションにおいて、我々のアプローチの実用性を強調している。
関連論文リスト
- Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Efficient Post-training Quantization with FP8 Formats [14.543387418837154]
本稿では,75のユニークなネットワークアーキテクチャにおけるFP8データフォーマットの学習後量子化の利点について検討する。
E4M3はNLPモデルに向いているが、E3M4はコンピュータビジョンタスクではE4M3よりはるかに優れている。
論文 参考訳(メタデータ) (2023-09-26T00:58:36Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Modular Quantization-Aware Training: Increasing Accuracy by Decreasing
Precision in 6D Object Pose Estimation [56.80039657816035]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。
本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。
MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文 参考訳(メタデータ) (2023-03-12T21:01:54Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - ZeroQuant: Efficient and Affordable Post-Training Quantization for
Large-Scale Transformers [29.566132632781848]
我々は、ZeroQuantと呼ばれる大きなTransformerベースのモデルを圧縮するための、効率的で安価なポストトレーニング量子化手法を提案する。
ZeroQuantは3つの主要コンポーネントを備えたエンドツーエンドの量子化と推論パイプラインである。
論文 参考訳(メタデータ) (2022-06-04T00:28:21Z) - Deep Variational Models for Collaborative Filtering-based Recommender
Systems [63.995130144110156]
ディープラーニングは、リコメンダシステムの結果を改善するために、正確な協調フィルタリングモデルを提供する。
提案するモデルは, 深層建築の潜伏空間において, 変分概念を注入性に適用する。
提案手法は, 入射雑音効果を超える変動エンリッチメントのシナリオにおいて, 提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-07-27T08:59:39Z) - Generative Design of Hardware-aware DNNs [6.144349819246314]
本稿では,自律量子化とHW対応チューニングの新しい手法を提案する。
生成モデルであるAQGANは、目標精度を条件として、一連の量子化構成を生成する。
我々は、ImageNetデータセット上で広く使われている5つの効率的なモデルについて、我々のモデルを評価した。
論文 参考訳(メタデータ) (2020-06-06T20:39:25Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。