論文の概要: MoE-Infinity: Activation-Aware Expert Offloading for Efficient MoE
Serving
- arxiv url: http://arxiv.org/abs/2401.14361v1
- Date: Thu, 25 Jan 2024 18:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 13:44:38.045467
- Title: MoE-Infinity: Activation-Aware Expert Offloading for Efficient MoE
Serving
- Title(参考訳): MoE-Infinity: 効率的なMoEサービングのためのアクティベーションアウェア専門家のオフロード
- Authors: Leyang Xue, Yao Fu, Zhan Lu, Luo Mai, Mahesh Marina
- Abstract要約: MoE-Infinity(モエ・インフィニティ)は、アクティベーション・アウェアの専門家のオフロードを実現する、コスト効率の高いMixed-of-expert(MoE)サービスシステムである。
MoE-Infinityは、スパースアクティベーションを特定し、MoE推論の時間的局所性をキャプチャする新しいアプローチである、シーケンスレベルの専門家アクティベーショントレースを備えている。
- 参考スコア(独自算出の注目度): 16.979921797896935
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents MoE-Infinity, a cost-efficient mixture-of-expert (MoE)
serving system that realizes activation-aware expert offloading. MoE-Infinity
features sequence-level expert activation tracing, a new approach adept at
identifying sparse activations and capturing the temporal locality of MoE
inference. By analyzing these traces, MoE-Infinity performs novel
activation-aware expert prefetching and caching, substantially reducing the
latency overheads usually associated with offloading experts for improved cost
performance. Extensive experiments in a cluster show that MoE-Infinity
outperforms numerous existing systems and approaches, reducing latency by 4 -
20X and decreasing deployment costs by over 8X for various MoEs. MoE-Infinity's
source code is publicly available at https://github.com/TorchMoE/MoE-Infinity
- Abstract(参考訳): 本稿では,アクティベーション・アウェア・エキスパートのオフロードを実現する,コスト効率の高いmoeサービスシステムであるmoe-infinityを提案する。
moe-infinityはシーケンスレベルのエキスパートアクティベーショントレースを特徴とし、スパースアクティベーションを識別し、moe推論の時間的局所性をキャプチャする新しいアプローチである。
これらのトレースを分析することで、moe-infinityは新しいアクティベーション・アウェアの専門家によるプリフェッチとキャッシングを実行し、コストパフォーマンスを改善するために通常オフロードの専門家に関連するレイテンシオーバーヘッドを大幅に削減する。
クラスタでの大規模な実験によると、MoE-Infinityは既存のシステムやアプローチよりも優れており、レイテンシが420倍、デプロイメントコストがさまざまなMoEの8倍以上削減されている。
MoE-Infinityのソースコードはhttps://github.com/TorchMoE/MoE-Infinityで公開されている。
関連論文リスト
- Prompt-prompted Mixture of Experts for Efficient LLM Generation [31.657608562937543]
我々はGRIFFINを紹介した。GRIFFINはトレーニング不要のMOEで、多数の大規模言語モデルにまたがる効率的な生成のために、シーケンスレベルで独自のFFエキスパートを選択する。
GRIFFINは、様々な分類タスクと生成タスクをほとんどあるいは全く分解することなく、オリジナルのモデルの性能を維持している。
論文 参考訳(メタデータ) (2024-04-01T17:56:06Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation [44.43376913419967]
本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。
MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。
実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
論文 参考訳(メタデータ) (2023-12-27T15:23:37Z) - Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs
on the Edge [45.690907522226794]
大きな言語モデル(LLM)は、複雑な言語モデリングタスクにおける印象的なパフォーマンスで際立っている。
近年の研究では、エンド・ツー・エンドのタスク性能に最小限の影響を伴って、8ビット以下のウェイト量子化が可能であることが示されている。
我々は、人気のある大規模言語モデルのためのアクティベーション誘導量子化フレームワークであるAgile-Quantを提案する。
論文 参考訳(メタデータ) (2023-12-09T22:12:52Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - SADMoE: Exploiting Activation Sparsity with Dynamic-k Gating [3.74142789780782]
トランスフォーマーモデルは、ネットワークの一部をMixture-of-Experts層に変換することで、推論コストを削減するために利用することができる。
本稿では,活性化空間化によるMoE変換の効率化について述べる。
また,より効果的な動的k専門家選択ルールを提案する。
論文 参考訳(メタデータ) (2023-10-06T16:34:51Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。