Fugu-MT 論文翻訳(概要): ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models

論文の概要: ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models

arxiv url: http://arxiv.org/abs/2406.09041v1
Date: Thu, 13 Jun 2024 12:27:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 18:15:03.600695
Title: ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models
Title（参考訳）: ME-Switch: 大規模言語モデルのためのメモリ効率の良いエキスパートスイッチングフレームワーク
Authors: Jing Liu, Ruihao Gong, Mingyang Zhang, Yefei He, Jianfei Cai, Bohan Zhuang,
Abstract要約: LLMサービスのためのメモリ効率の高いエキスパートスイッチングフレームワークであるME-Switchを紹介する。 Me-Switchは混合精度量子化を使用し、デルタ重みの非塩分入力チャネルを極端に低ビットに選択的に定量化する。 Me-Switchは、1つのNVIDIA A100 GPU上で、Mistral-7Bファミリーから16のモデルを効率的に提供することができる。
参考スコア（独自算出の注目度）: 43.29533894162248
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The typical process for developing LLMs involves pre-training a general foundation model on massive data, followed by fine-tuning on task-specific data to create specialized experts. Serving these experts poses challenges, as loading all experts onto devices is impractical, and frequent switching between experts in response to user requests incurs substantial I/O costs, increasing latency and expenses. Previous approaches decompose expert weights into pre-trained model weights and residual delta weights, then quantize the delta weights to reduce model size. However, these methods often lead to significant quantization errors at extremely low bitwidths and assume the appropriate model for a user request is known in advance, which is not practical. To address these issues, we introduce ME-Switch, a memory-efficient expert switching framework for LLM serving. ME-Switch uses mixed-precision quantization, selectively quantizing non-salient input channels of delta weights to extremely low bits while keeping salient ones intact, significantly reducing storage demands while maintaining performance. Additionally, we develop a routing method that efficiently directs user queries to the most suitable expert by transforming the model selection problem into a domain classification problem. Extensive experiments show ME-Switch's promising memory efficiency and routing performance. For example, when serving three models from the Mistral-7B family, ME-Switch reduces model size by 1.74x while maintaining nearly lossless performance on instruction, mathematical reasoning, and code generation tasks. Furthermore, ME-Switch can efficiently serve 16 models from the Mistral-7B family on a single NVIDIA A100 GPU.
Abstract（参考訳）: LLMを開発する典型的なプロセスは、大量のデータに対する一般的な基礎モデルの事前学習と、専門的な専門家を作成するためのタスク固有のデータへの微調整である。専門家全員をデバイスにロードすることは現実的ではなく、ユーザの要求に応じて専門家同士を頻繁に切り替えることによって、相当なI/Oコストが発生し、レイテンシとコストが増加する。以前のアプローチでは、専門家の重量を事前訓練されたモデルウェイトと残差デルタウェイトに分解し、デルタウェイトを定量化してモデルサイズを減少させた。しかし、これらの手法は、極低ビット幅での有意な量子化誤差を招き、ユーザ要求に適したモデルが事前に知られていると仮定することが多く、実用的ではない。これらの問題に対処するために,LLMサービスのためのメモリ効率の高いエキスパートスイッチングフレームワークであるME-Switchを紹介する。 ME-Switchは混合精度の量子化を使用し、デルタ重みの非塩分入力チャネルを極端に低ビットに選択的に定量化し、静電容量を保ちながら性能を維持しながらストレージ要求を大幅に低減する。さらに、モデル選択問題をドメイン分類問題に変換することにより、ユーザクエリを最も適した専門家に効率的に誘導するルーティング手法を開発する。大規模な実験は、ME-Switchの有望なメモリ効率とルーティング性能を示している。例えば、Mistral-7Bファミリーから3つのモデルを提供する場合、ME-Switchはモデルサイズを1.74倍に削減し、命令、数学的推論、コード生成タスクにおいてほとんど損失のない性能を維持する。さらに、ME-Switchは1つのNVIDIA A100 GPU上で、Mistral-7Bファミリーから16のモデルを効率的に提供することができる。

関連論文リスト

MoTE: Mixture of Ternary Experts for Memory-efficient Large Multimodal Models [36.730689832979365]
MoTEは、密なチェックポイントからMixture-of-Ternary-Expertsモデルをトレーニングするためのスケーラブルでメモリ効率のよいアプローチである。 MoTEはメモリフットプリントを低くしながら、完全精度のベースラインであるMoE-LLaVAに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-17T11:53:49Z)
MoLEx: Mixture of Layer Experts for Finetuning with Sparse Upcycling [2.1605931466490795]
深層モデルの大規模事前学習と微調整が自然言語処理(NLP)の基盤となっている。本稿では,異なるタイプの言語情報の抽出器としてレイヤについて検討する。我々は,事前学習モデルのレイヤーである専門家の疎結合であるMix of Layer Experts(Molex)を提案する。
論文参考訳（メタデータ） (2025-03-14T07:22:07Z)
FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。重要でないトークンを適応的に識別する学習可能なルータを提案する。提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文参考訳（メタデータ） (2024-12-16T07:09:46Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
PAT: Pruning-Aware Tuning for Large Language Models [19.622152991641045]
大規模言語モデルは言語タスク、特に事前訓練後の教師付き微調整において優れている。伝統的なポストホットプルーニングは、しばしばパフォーマンスを著しく損なう。モデル冗長性を排除するために,Pruning-Aware Tuning(PAT)パラダイムを提案する。
論文参考訳（メタデータ） (2024-08-27T01:04:14Z)
A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文参考訳（メタデータ） (2024-05-26T17:52:58Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
BitDelta: Your Fine-Tune May Only Be Worth One Bit [57.558376557639555]
大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減する。
論文参考訳（メタデータ） (2024-02-15T18:50:06Z)
Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit Quantization and Robustness [10.196942053244468]
大規模なMixture of Experts (MoE)モデルは、様々な言語タスクで最先端の品質を達成することができる。 MoQEは、超低ビットから2ビットまでの量子化を専門家の重みのみに適用する単純な重みのみの量子化法である。低ビット量子化とMoEアーキテクチャは信頼性の高いモデル性能を提供することを示す。
論文参考訳（メタデータ） (2023-10-03T20:11:23Z)
EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models [3.597163516372061]
EdgeMoEは、Mix-of-expert (MoE) LLM用に設計されたデバイス上の推論エンジンである。ストレージ階層間でモデルを戦略的に分割することで、メモリと計算の効率を両立させる。競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2023-08-28T06:56:08Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文参考訳（メタデータ） (2021-03-30T23:08:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。