Fugu-MT 論文翻訳(概要): Mixture of Experts with Mixture of Precisions for Tuning Quality of Service

論文の概要: Mixture of Experts with Mixture of Precisions for Tuning Quality of Service

arxiv url: http://arxiv.org/abs/2407.14417v1
Date: Fri, 19 Jul 2024 15:42:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 16:55:32.299580
Title: Mixture of Experts with Mixture of Precisions for Tuning Quality of Service
Title（参考訳）: サービス品質調整のための精度混合専門家の混合
Authors: HamidReza Imani, Abdolah Amirany, Tarek El-Ghazawi,
Abstract要約: 本稿では,MoEモデルの効率的なデプロイのための適応型サービス方式を提案する。量子化の専門家の数を動的に決定することにより、スループットとモデル品質をチューニングするためのきめ細かい設定を提供する。その結果、動的かつ精度の高いアプリケーションにおける我々のアプローチの実用性を強調した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increasing demand for deploying large Mixture-of-Experts (MoE) models in resource-constrained environments necessitates efficient approaches to address their high memory and computational requirements challenges. Moreover, given that tasks come in different user-defined constraints and the available resources change over time in multi-tenant environments, it is necessary to design an approach which provides a flexible configuration space. This paper presents an adaptive serving approach for the efficient deployment of MoE models, capitalizing on partial quantization of the experts. By dynamically determining the number of quantized experts and their distribution across CPU and GPU, our approach explores the Pareto frontier and offers a fine-grained range of configurations for tuning throughput and model quality. Our evaluation on an NVIDIA A100 GPU using a Mixtral 8x7B MoE model for three language modelling benchmarks demonstrates that the throughput of token generation can be adjusted from 0.63 to 13.00 token per second. This enhancement comes with a marginal perplexity increase of 2.62 to 2.80, 6.48 to 7.24, and 3.24 to 3.53 for WikiText2, PTB, and C4 datasets respectively under maximum quantization. These results highlight the practical applicability of our approach in dynamic and accuracy-sensitive applications where both memory usage and output quality are important.
Abstract（参考訳）: リソース制約のある環境に大規模なMixture-of-Experts(MoE)モデルをデプロイする需要が高まっているため、高いメモリと計算要求に対処するための効率的なアプローチが必要である。さらに、タスクが異なるユーザ定義の制約に収まり、利用可能なリソースがマルチテナント環境で時間とともに変化することを考慮すれば、柔軟な構成空間を提供するアプローチを設計する必要がある。本稿では,MoEモデルを効率よく展開するための適応型サービス方式を提案する。量子化された専門家の数を動的に決定し、CPUとGPUにまたがる分布を測定することで、当社のアプローチはParetoフロンティアを探索し、スループットとモデル品質をチューニングするためのきめ細かい設定を提供する。 3つの言語モデリングベンチマークのためのMixtral 8x7B MoEモデルを用いたNVIDIA A100 GPUの評価は、トークン生成のスループットが毎秒0.63から13.00に調整可能であることを示す。この拡張は、それぞれ最大量子化の下で、WikiText2、PTB、C4データセットに対して2.62から2.80に、6.48から7.24に、3.24から3.53に限界パープレキシティが増大する。これらの結果は、メモリ使用量と出力品質の両方が重要である動的かつ精度に敏感なアプリケーションにおいて、我々のアプローチの実用性を強調している。

関連論文リスト

KV Pareto: Systems-Level Optimization of KV Cache and Model Compression for Long Context Inference [2.8485297992257017]
長文Long-context Large Language Models (LLMs) は、キー値(KV)キャッシュとシーケンス長の線形成長により、推論中に重要なメモリボトルネックに直面している。 KVキャッシュの量子化、チャンクプリフィル、モデルウェイト量子化といった個別の最適化手法は、将来性を示しているが、それらの共同効果とエッジ展開のための最適構成は、まだ未定である。
論文参考訳（メタデータ） (2025-12-01T18:03:47Z)
Efficient-Husformer: Efficient Multimodal Transformer Hyperparameter Optimization for Stress and Cognitive Loads [0.0]
トランスフォーマーに基づくモデルは生理的信号解析の分野で大きな注目を集めている。時間的信号の長距離依存性や複雑なパターンを活用することで、従来のRNNやCNNモデルよりも優れたパフォーマンスを実現することができる。マルチクラスストレス検出のためのトランスフォーマーベースアーキテクチャであるEfficient-Husformerを提案する。
論文参考訳（メタデータ） (2025-11-27T12:02:25Z)
Adaptive Mesh-Quantization for Neural PDE Solvers [51.26961483962011]
グラフニューラルネットワークは複雑なジオメトリや境界条件に必要な不規則なメッシュを処理できるが、それでもすべてのノードで一様計算処理を適用できる。適応メッシュ量子化(Adaptive Mesh Quantization): メッシュノード,エッジ,クラスタ特徴間の空間適応量子化であり,量子化モデルで使用されるビット幅を動的に調整する。我々は,MP-PDEとGraphViTという2つの最先端モデルと統合して,複数のタスクのパフォーマンスを評価することで,フレームワークの有効性を実証する。
論文参考訳（メタデータ） (2025-11-23T14:47:24Z)
MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文参考訳（メタデータ） (2025-10-13T03:12:46Z)
EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文参考訳（メタデータ） (2025-05-20T02:27:08Z)
QoS-Efficient Serving of Multiple Mixture-of-Expert LLMs Using Partial Runtime Reconfiguration [0.0]
Mixtral-8x7Bモデルを使用した1台のNVIDIA A100 GPU(80GB)を持つサーバは、NVIDIAのマルチインスタンスGPU(MIG)と比較して、ターンアラウンド時間を平均85%削減している。最大4つのバリエーションを備えたGoogleのSwitch Transformer Base-8モデルに関する実験では、他のモデルのマージベースラインと比較して、アウトプット品質の維持における我々のアプローチのスケーラビリティとレジリエンスが示され、その効果が強調されている。
論文参考訳（メタデータ） (2025-05-10T00:46:04Z)
MxMoE: Mixed-precision Quantization for MoE with Accuracy and Performance Co-Design [41.7649957078564]
MxMoEは、Mixture-of-Experts (MoE)モデルの混合精度最適化フレームワークである。 MxMoEはパラメータ感度、エキスパートアクティベーションダイナミクス、ハードウェアリソースによって定義された設計空間をナビゲートし、効率的な混合精度構成を導出する。
論文参考訳（メタデータ） (2025-05-09T05:32:21Z)
DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。 ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文参考訳（メタデータ） (2025-03-18T17:57:07Z)
Matryoshka Quantization [19.46665026740268]
本稿では,新しいマルチスケール量子化手法であるMatryoshka Quantization(MatQuant)を提案する。 MatQuantを使えば、単一の量子化モデルをトレーニングし、メンテナンスできますが、デプロイによって要求される正確さでそれを提供します。
論文参考訳（メタデータ） (2025-02-10T18:59:10Z)
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。 W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts大言語モデル(MoE-LLM)のためのトレーニング不要なMixture-CompressorであるMC-MoEを提案する。 MC-MoEは、専門家とトークンの両方の重要性を活用して極端な圧縮を実現する。例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。
論文参考訳（メタデータ） (2024-10-08T18:09:38Z)
GRIN: GRadient-INformed MoE [132.87651078514122]
Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、密度の高いモデルよりも効果的にスケールする。エキスパートルーティングのためのスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入する。我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。
論文参考訳（メタデータ） (2024-09-18T17:00:20Z)
QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Experts [47.01697456105496]
Mixture-of-Experts (MoE)は、大規模言語モデルの学習能力をスケールアップする有望な方法である。 MoEは大きなパラメータサイズのためにメモリオーバーヘッドに悩まされる。トレーニング後の量子化は、モデル圧縮に強力なアプローチを提供する。
論文参考訳（メタデータ） (2024-06-12T12:44:48Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
Efficient Post-training Quantization with FP8 Formats [14.543387418837154]
本稿では,75のユニークなネットワークアーキテクチャにおけるFP8データフォーマットの学習後量子化の利点について検討する。 E4M3はNLPモデルに向いているが、E3M4はコンピュータビジョンタスクではE4M3よりはるかに優れている。
論文参考訳（メタデータ） (2023-09-26T00:58:36Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
A Hybrid Tensor-Expert-Data Parallelism Approach to Optimize Mixture-of-Experts Training [13.346719319555943]
Mixture-of-Experts (MoE)は、ベースモデルにわずかにアクティベートされたエキスパートブロックを追加するニューラルネットワークアーキテクチャである。現在の分散ディープラーニングフレームワークは、大規模なベースモデルで高品質なMoEモデルをトレーニングする能力に制限がある。本稿では,データ,テンソル,エキスパート並列性を組み合わせた3次元ハイブリッド並列アルゴリズムDeepSpeed-TEDを提案する。
論文参考訳（メタデータ） (2023-03-11T05:38:15Z)
ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers [29.566132632781848]
我々は、ZeroQuantと呼ばれる大きなTransformerベースのモデルを圧縮するための、効率的で安価なポストトレーニング量子化手法を提案する。 ZeroQuantは3つの主要コンポーネントを備えたエンドツーエンドの量子化と推論パイプラインである。
論文参考訳（メタデータ） (2022-06-04T00:28:21Z)
Generative Design of Hardware-aware DNNs [6.144349819246314]
本稿では,自律量子化とHW対応チューニングの新しい手法を提案する。生成モデルであるAQGANは、目標精度を条件として、一連の量子化構成を生成する。我々は、ImageNetデータセット上で広く使われている5つの効率的なモデルについて、我々のモデルを評価した。
論文参考訳（メタデータ） (2020-06-06T20:39:25Z)
Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文参考訳（メタデータ） (2020-04-15T20:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。