Fugu-MT 論文翻訳(概要): Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark

論文の概要: Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark

arxiv url: http://arxiv.org/abs/2406.08155v1
Date: Wed, 12 Jun 2024 12:44:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 17:05:29.529005
Title: Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark
Title（参考訳）: Mixture-of-Expertsのためのトレーニング後の量子化の検討:ベンチマーク
Authors: Pingzhi Li, Xiaolong Jin, Yu Cheng, Tianlong Chen,
Abstract要約: Mixture-of-Experts(MoE)アプローチは,大規模言語モデル(LLM)を拡張可能な方法を提供する MoEは大きなメモリオーバーヘッドに悩まされており、モデル圧縮技術を必要とする。本稿では,MoEブロックから個々の線形重みまで,粗さから細粒度まで,いくつかのMoE構造を考慮した量子化について検討する。
参考スコア（独自算出の注目度）: 46.72960840801211
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models~(LLMs) have become foundational in the realm of natural language processing, demonstrating performance improvements as model sizes increase. The Mixture-of-Experts~(MoE) approach offers a promising way to scale LLMs more efficiently by using fewer computational FLOPs through sparse activation. However, it suffers from significant memory overheads, necessitating model compression techniques. Post-training quantization, a popular method for model compression, proves less effective when directly applied to MoE models due to MoE's overlooked inherent sparsity. This paper explores several MoE structure-aware quantization heuristics, ranging from coarse to fine granularity, from MoE block to individual linear weight. Our investigations reveal critical principles: different MoE structures (i.e., blocks, experts, linear layers) require varying numbers of weight bits for effective and efficient quantization. Conclusions are supported by extensive benchmarking across two representative MoE models and six tasks. We further introduce novel enhancements to more accurately identify the most critical weights in MoE quantization that necessitate higher bit allocations, including the linear weight outlier scorer and MoE block scorer. Additionally, subsequent experiments validate our findings in the context of both weight and activation quantization.
Abstract（参考訳）: 大規模言語モデル~(LLM)は自然言語処理の領域において基礎となり、モデルのサイズが大きくなるにつれて性能が向上した。 Mixture-of-Experts~(MoE)アプローチは、スパースアクティベーションによって少ない計算FLOPを使用することで、LCMをより効率的にスケールする方法を提供する。しかし、それは大きなメモリオーバーヘッドに悩まされ、モデル圧縮技術を必要とする。モデル圧縮の一般的な方法であるポストトレーニング量子化(英語版)は、MoEの見過ごされた固有空間のため、MoEモデルに直接適用した場合、効果が低いことを証明している。本稿では,MoEブロックから個々の線形重みまで,粗さから粒度まで,MoE構造を考慮した量子化ヒューリスティックスについて検討する。異なるMOE構造(ブロック、専門家、線形層)は、効率的かつ効率的な量子化のために様々な重みビットを必要とする。結論は、2つの代表的なMoEモデルと6つのタスクにわたる広範なベンチマークによって支持される。さらに、線形重み出力スコアラやMoEブロックスコアラなど、より高いビット割り当てを必要とするMoE量子化の最も重要な重みをより正確に識別する新しい拡張を導入する。さらに、その後の実験では、重み付けとアクティベーション量子化の両方の文脈で、我々の発見を検証した。

関連論文リスト

Mixed-Precision Quantization for Language Models: Techniques and Prospects [10.345914140081925]
量子化は、モデルサイズを減らし、メモリボトルネックを緩和し、推論を加速する重要な圧縮技術として登場した。混合精度量子化は、効率と精度のバランスをとるために、層またはテンソル内で精度を選択的に割り振ることで、有望な代替手段を提供する。
論文参考訳（メタデータ） (2025-10-19T12:16:40Z)
MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE [12.96406947372715]
トークンレベルでの予測品質を改善する補完的なフレームワークであるハイパー並列スケーリングを導入する。この概念をMixture-of-Experts(MoE)モデルで実装し、Roster of Experts(RoE)と呼ぶ。 RoEはトレーニング不要な推論アルゴリズムで、単一のMoEをMoEのダイナミックアンサンブルに変換する。
論文参考訳（メタデータ） (2025-09-21T21:05:29Z)
MoQE: Improve Quantization Model performance via Mixture of Quantization Experts [5.990018519616728]
Mixture of Quantization Experts(略称:MoQE)は、Mixture-of-Expertsアーキテクチャに基づく量子化推論フレームワークである。 MoQEは1つの完全精度モデルの複数の量子化変種を「量子化の専門家」として結合する我々は,MQEがSOTA量子化モデルに匹敵する性能を達成できることを示す。
論文参考訳（メタデータ） (2025-08-09T05:58:29Z)
InfiJanice: Joint Analysis and In-situ Correction Engine for Quantization-Induced Math Degradation in Large Language Models [39.257022875813284]
LLM(Large Language Models)は、GSM8K、MATH、AIMEといった複雑な推論ベンチマークにおいて、優れたパフォーマンスを示している。モデル量子化は、メモリフットプリントと推論レイテンシを低減するための有望なアプローチとして登場した。量子化は、数学的推論の精度を最大69.81%低下させることができることを示す。
論文参考訳（メタデータ） (2025-05-16T12:11:40Z)
MxMoE: Mixed-precision Quantization for MoE with Accuracy and Performance Co-Design [41.7649957078564]
MxMoEは、Mixture-of-Experts (MoE)モデルの混合精度最適化フレームワークである。 MxMoEはパラメータ感度、エキスパートアクティベーションダイナミクス、ハードウェアリソースによって定義された設計空間をナビゲートし、効率的な混合精度構成を導出する。
論文参考訳（メタデータ） (2025-05-09T05:32:21Z)
MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators [17.024303421560578]
我々は、高量子化MoEを低ランク補償器の混合で拡張する新しい方法であるMiLoを紹介する。 MiLoはキャリブレーションデータに依存しないので、キャリブレーションセットに過度に適合することなく、さまざまなMoEモデルやデータセットに一般化することができる。評価の結果、MiLoは様々なタスクでSoTA MoEモデル上で既存の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2025-04-03T14:54:17Z)
MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness [12.059149430757863]
Mix-of-Experts (MoE) はLarge Language Models (LLM) のメインフォームとなった。 MoQaは、複数の分析段階におけるMoEのデータモデル分布の複雑さを分離する。実験の結果、MoQaは言語モデリングタスクの1.692.18パープレキシティ低下と、ゼロショット推論タスクの1.58%8.91%の精度向上を実現している。
論文参考訳（メタデータ） (2025-03-27T03:52:25Z)
MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文参考訳（メタデータ） (2024-10-15T19:22:27Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文参考訳（メタデータ） (2024-05-23T12:45:29Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit Quantization and Robustness [10.196942053244468]
大規模なMixture of Experts (MoE)モデルは、様々な言語タスクで最先端の品質を達成することができる。 MoQEは、超低ビットから2ビットまでの量子化を専門家の重みのみに適用する単純な重みのみの量子化法である。低ビット量子化とMoEアーキテクチャは信頼性の高いモデル性能を提供することを示す。
論文参考訳（メタデータ） (2023-10-03T20:11:23Z)
Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models [7.485068491216164]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。本稿では,各入力チャネル内の量子化グループを生成する簡易かつ効果的な手法である,IC単位の量子化を提案する。
論文参考訳（メタデータ） (2023-09-27T09:48:31Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
Modular Quantization-Aware Training for 6D Object Pose Estimation [52.9436648014338]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。 MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文参考訳（メタデータ） (2023-03-12T21:01:54Z)
Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文参考訳（メタデータ） (2021-12-30T06:32:47Z)
Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文参考訳（メタデータ） (2021-12-20T17:05:11Z)
Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。 Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文参考訳（メタデータ） (2021-10-07T11:58:35Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。