論文の概要: ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.09041v2
- Date: Sat, 26 Oct 2024 15:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:32.968425
- Title: ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models
- Title(参考訳): ME-Switch: 大規模言語モデルのためのメモリ効率の良いエキスパートスイッチングフレームワーク
- Authors: Jing Liu, Ruihao Gong, Mingyang Zhang, Yefei He, Jianfei Cai, Bohan Zhuang,
- Abstract要約: LLMの開発には、大量のデータに基づく基礎モデルの事前トレーニングと、専門的な専門家を作成するためのタスク固有のデータの微調整が含まれる。
以前のアプローチでは、事前訓練された重みとデルタ重みとして専門家の重みを分解し、続いてデルタ重みを定量化してモデルサイズを減少させた。
複数のLLMを提供するのに適したメモリ効率の高いエキスパートスイッチングフレームワークであるME-Switchを紹介する。
- 参考スコア(独自算出の注目度): 43.29533894162248
- License:
- Abstract: LLM development involves pre-training a foundation model on massive data, followed by fine-tuning on task-specific data to create specialized experts. Serving these experts can pose significant memory challenges, as loading all experts onto devices is impractical, and frequent switching between experts in response to user requests can incur substantial I/O costs. Previous approaches decompose the expert weights as the pre-trained weights plus delta weights, followed by quantizing the delta weights using output channel-wise step sizes to reduce the model size. However, these methods overlook the fact that certain input channels of delta weights can cause significant quantization errors at extremely low bitwidths. Additionally, existing methods assume that the appropriate model for a user request is known in advance, which is not the case in practice. To this end, we introduce ME-Switch, a memory-efficient expert switching framework tailored for serving multiple LLMs. To condense the number of bits required for describing the delta weights, we propose a salient-aware delta compression method that identifies salient input channels based on reconstruction error and applies mixed-precision quantization, reducing non-salient channels to low bits while keeping salient ones intact, cutting storage demand without compromising performance. Moreover, we develop a model-level routing method that efficiently directs user queries to the most suitable expert by performing domain classification. Extensive experiments show the promising memory efficiency and routing performance of ME-Switch. For example, when serving three models from the Mistral-7B family, ME-Switch reduces the model size by $1.74\times$ and maintains nearly lossless performance on instruction, mathematical reasoning, and code generation tasks. Notably, our method can efficiently serve 16 Mistral-7B models on a single NVIDIA A100 GPU.
- Abstract(参考訳): LLMの開発には、大量のデータに基づく基礎モデルの事前トレーニングと、専門的な専門家を作成するためのタスク固有のデータの微調整が含まれる。
専門家全員をデバイスにロードすることは現実的ではなく、ユーザ要求に応じて専門家同士を頻繁に切り替えることは、かなりのI/Oコストを発生させる可能性がある。
以前のアプローチでは、事前訓練された重みとデルタ重みとして専門的な重みを分解し、続いて出力チャネルのステップサイズを用いてデルタ重みを定量化し、モデルサイズを減少させた。
しかし、これらの手法はデルタ重みの入力チャネルが極低ビット幅で有意な量子化誤差を引き起こす可能性があるという事実を見落としている。
さらに、既存手法では、ユーザ要求の適切なモデルが事前に知られていると仮定するが、実際にはそうではない。
この目的のために,複数のLLMを提供するのに適したメモリ効率の高いエキスパートスイッチングフレームワークであるME-Switchを紹介する。
デルタ重みを記述するのに必要なビット数を和らげるために、再構成誤差に基づいて有意な入力チャネルを識別し、混合精度の量子化を適用し、非有意なチャネルを低ビットに減らし、有意なチャネルを無傷で維持し、性能を損なうことなく記憶需要を削減できる有意なデルタ圧縮法を提案する。
さらに,ドメイン分類を行うことで,ユーザクエリを最適な専門家に効率的に誘導するモデルレベルのルーティング手法を開発した。
大規模な実験によりME-Switchのメモリ効率とルーティング性能が向上した。
例えば、Mistral-7Bファミリーから3つのモデルを提供する場合、ME-Switchはモデルのサイズを$1.74\times$に減らし、命令、数学的推論、コード生成タスクにおけるほとんど損失のないパフォーマンスを維持する。
特に,この手法は1つのNVIDIA A100 GPU上で16Mistral-7Bモデルを効率的に動作させることができる。
関連論文リスト
- HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - PAT: Pruning-Aware Tuning for Large Language Models [19.622152991641045]
大規模言語モデルは言語タスク、特に事前訓練後の教師付き微調整において優れている。
伝統的なポストホットプルーニングは、しばしばパフォーマンスを著しく損なう。
モデル冗長性を排除するために,Pruning-Aware Tuning(PAT)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-08-27T01:04:14Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - BitDelta: Your Fine-Tune May Only Be Worth One Bit [57.558376557639555]
大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。
我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。
複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減する。
論文 参考訳(メタデータ) (2024-02-15T18:50:06Z) - Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit
Quantization and Robustness [10.196942053244468]
大規模なMixture of Experts (MoE)モデルは、様々な言語タスクで最先端の品質を達成することができる。
MoQEは、超低ビットから2ビットまでの量子化を専門家の重みのみに適用する単純な重みのみの量子化法である。
低ビット量子化とMoEアーキテクチャは信頼性の高いモデル性能を提供することを示す。
論文 参考訳(メタデータ) (2023-10-03T20:11:23Z) - EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models [3.597163516372061]
EdgeMoEは、Mix-of-expert (MoE) LLM用に設計されたデバイス上の推論エンジンである。
ストレージ階層間でモデルを戦略的に分割することで、メモリと計算の効率を両立させる。
競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2023-08-28T06:56:08Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文 参考訳(メタデータ) (2021-03-30T23:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。