Fugu-MT 論文翻訳(概要): Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit Quantization and Robustness

論文の概要: Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit Quantization and Robustness

arxiv url: http://arxiv.org/abs/2310.02410v1
Date: Tue, 3 Oct 2023 20:11:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 17:42:04.178017
Title: Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit Quantization and Robustness
Title（参考訳）: 量子化エキスパートの混合(MoQE):低ビット量子化とロバストネスの相補効果
Authors: Young Jin Kim, Raffy Fahim, Hany Hassan Awadalla
Abstract要約: 大規模なMixture of Experts (MoE)モデルは、様々な言語タスクで最先端の品質を達成することができる。 MoQEは、超低ビットから2ビットまでの量子化を専門家の重みのみに適用する単純な重みのみの量子化法である。低ビット量子化とMoEアーキテクチャは信頼性の高いモデル性能を提供することを示す。
参考スコア（独自算出の注目度）: 10.196942053244468
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Mixture of Experts (MoE) models could achieve state-of-the-art quality on various language tasks, including machine translation task, thanks to the efficient model scaling capability with expert parallelism. However, it has brought a fundamental issue of larger memory consumption and increased memory bandwidth bottleneck at deployment time. In this paper, we propose Mixture of Quantized Experts (MoQE) which is a simple weight-only quantization method applying ultra low-bit down to 2-bit quantizations only to expert weights for mitigating the increased memory and latency issues of MoE models. We show that low-bit quantization together with the MoE architecture delivers a reliable model performance while reducing the memory size significantly even without any additional training in most cases. In particular, expert layers in MoE models are much more robust to the quantization than conventional feedforward networks (FFN) layers. In our comprehensive analysis, we show that MoE models with 2-bit expert weights can deliver better model performance than the dense model trained on the same dataset. As a result of low-bit quantization, we show the model size can be reduced by 79.6% of the original half precision floating point (fp16) MoE model. Combined with an optimized GPU runtime implementation, it also achieves 1.24X speed-up on A100 GPUs.
Abstract（参考訳）: 大規模なMixture of Experts(MoE)モデルは、専門家並列性を備えた効率的なモデルスケーリング能力のおかげで、機械翻訳タスクを含む様々な言語タスクにおいて最先端の品質を達成することができる。しかし、メモリ消費の増大とデプロイメント時のメモリ帯域のボトルネックの増大という根本的な問題をもたらした。本稿では,Mixture of Quantized Experts (MoQE)を提案する。これは,超低ビットから2ビットの量子化を適用した単純な量のみの量子化法で,MoEモデルのメモリおよびレイテンシの増大を緩和する専門家の重みにのみ適用する。我々は、低ビット量子化がmoeアーキテクチャと共に信頼性の高いモデル性能をもたらすと同時に、多くの場合、追加のトレーニングなしでもメモリサイズを大幅に削減できることを示す。特に、moeモデルのエキスパート層は、従来のfeedforward network (ffn)層よりも量子化に対してはるかに堅牢である。包括的分析では、2ビットのエキスパートウェイトを持つMoEモデルが、同じデータセットでトレーニングされた高密度モデルよりも優れたモデル性能を提供できることを示した。低ビット量子化の結果、元の半精度浮動小数点 (fp16) MoE モデルの79.6%でモデルサイズを縮小できることを示した。最適化されたGPUランタイム実装と組み合わせて、A100 GPU上で1.24倍のスピードアップを実現する。

関連論文リスト

CAMERA: Multi-Matrix Joint Compression for MoE Models via Micro-Expert Redundancy Analysis [51.27304044745634]
MoE(Mixture-of-Experts)を備えた大規模言語モデルは、計算と記憶のオーバーヘッドに悩まされる。行列にまたがるより微細な圧縮ユニットとしてマイクロエキスパートを導入する。マイクロエキスパートのための構造化プルーニングフレームワークであるCAMERA-Pと、マイクロエキスパート向けに設計された混合精度量子化アイデアであるCAMERA-Qを提案する。
論文参考訳（メタデータ） (2025-08-04T11:42:48Z)
CoSMoEs: Compact Sparse Mixture of Experts [14.576482330940262]
オンデバイス推論において,CoSMoE(Compact Sparse Mixture of Experts)を有効にする方法を示す。特に、品質、メモリ、レイテンシの3つの主要なオンデバイスディメンションに取り組みます。重量分解の専門家を導入し、MoEモデルの性能をさらに改善する。
論文参考訳（メタデータ） (2025-02-28T23:25:11Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark [46.72960840801211]
Mixture-of-Experts(MoE)アプローチは,大規模言語モデル(LLM)を拡張可能な方法を提供する MoEは大きなメモリオーバーヘッドに悩まされており、モデル圧縮技術を必要とする。本稿では,MoEブロックから個々の線形重みまで,粗さから細粒度まで,いくつかのMoE構造を考慮した量子化について検討する。
論文参考訳（メタデータ） (2024-06-12T12:44:48Z)
decoupleQ: Towards 2-bit Post-Training Uniform Quantization via decoupling Parameters into Integer and Floating Points [10.238677144792279]
deoupleQは従来の量子化パラダイムを捨て、モデルパラメータを整数と浮動小数点に分解する。 ByteDanceの大規模音声モデルの2ビット量子化では,fp16/bf16付近のオンライン精度が良好であった。
論文参考訳（メタデータ） (2024-04-19T10:02:53Z)
Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文参考訳（メタデータ） (2024-02-19T21:20:22Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Vertical Layering of Quantized Neural Networks for Heterogeneous Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文参考訳（メタデータ） (2022-12-10T15:57:38Z)
Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文参考訳（メタデータ） (2022-11-18T03:43:52Z)
Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。 MoEはクラウドやモバイル環境にデプロイするのは難しい。本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文参考訳（メタデータ） (2022-06-01T07:09:01Z)
Once Quantization-Aware Training: High Performance Extremely Low-bit Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文参考訳（メタデータ） (2020-10-09T03:52:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。