論文の概要: EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models
- arxiv url: http://arxiv.org/abs/2308.14352v1
- Date: Mon, 28 Aug 2023 06:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 15:11:53.663788
- Title: EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models
- Title(参考訳): EdgeMoE: MoEベースの大規模言語モデルのデバイス上での高速推論
- Authors: Rongjie Yi, Liwei Guo, Shiyun Wei, Ao Zhou, Shangguang Wang, Mengwei
Xu
- Abstract要約: EdgeMoEは、Mix-of-expert (MoE) LLM用に設計されたデバイス上の推論エンジンである。
ストレージ階層間でモデルを戦略的に分割することで、メモリと計算の効率を両立させる。
競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上する。
- 参考スコア(独自算出の注目度): 3.597163516372061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) such as GPTs and LLaMa have ushered in a
revolution in machine intelligence, owing to their exceptional capabilities in
a wide range of machine learning tasks. However, the transition of LLMs from
data centers to edge devices presents a set of challenges and opportunities.
While this shift can enhance privacy and availability, it is hampered by the
enormous parameter sizes of these models, leading to impractical runtime costs.
In light of these considerations, we introduce EdgeMoE, the first on-device
inference engine tailored for mixture-of-expert (MoE) LLMs, a popular variant
of sparse LLMs that exhibit nearly constant computational complexity as their
parameter size scales. EdgeMoE achieves both memory and computational
efficiency by strategically partitioning the model across the storage
hierarchy. Specifically, non-expert weights are stored in the device's memory,
while expert weights are kept in external storage and are fetched into memory
only when they are activated. This design is underpinned by a crucial insight
that expert weights, though voluminous, are infrequently accessed due to sparse
activation patterns. To further mitigate the overhead associated with expert
I/O swapping, EdgeMoE incorporates two innovative techniques: (1) Expert-wise
bitwidth adaptation: This method reduces the size of expert weights with an
acceptable level of accuracy loss. (2) Expert management: It predicts the
experts that will be activated in advance and preloads them into the
compute-I/O pipeline, thus further optimizing the process. In empirical
evaluations conducted on well-established MoE LLMs and various edge devices,
EdgeMoE demonstrates substantial memory savings and performance improvements
when compared to competitive baseline solutions.
- Abstract(参考訳): gptsやllamaといった大規模言語モデル(llm)は、さまざまな機械学習タスクで非常に優れた能力を備えているため、マシンラーニングの革命を導いてきた。
しかし、データセンターからエッジデバイスへのLSMの移行は、いくつかの課題と機会をもたらしている。
このシフトによってプライバシと可用性が向上するが、これらのモデルの膨大なパラメータサイズによって妨げられ、実行コストが非現実的になる。
これらの考察を踏まえ、パラメータサイズスケールとしてほぼ一定の計算複雑性を示すスパースLSMの一般的な変種である、MEM(Mix-of-expert)用に調整された最初のデバイス推論エンジンであるEdgeMoEを紹介する。
EdgeMoEは、ストレージ階層間でモデルを戦略的に分割することで、メモリと計算効率の両方を達成する。
具体的には、非熟練重量はデバイスのメモリに格納され、専門家重量は外部ストレージに保存され、アクティベートされた時にのみメモリにフェッチされる。
この設計は、専門家の重みは、輝かしいものの、ほとんどアクティベーションパターンのためにアクセスされないという重要な洞察によって基づいている。
エキスパートI/Oスワップに伴うオーバーヘッドを軽減するために、EdgeMoEは、2つの革新的なテクニックを取り入れている。
2) エキスパート管理: 事前にアクティベートされる専門家を予測し、compute-i/oパイプラインにプリロードすることで、プロセスをさらに最適化する。
確立されたMoE LLMと各種エッジデバイスで実施した実証的な評価では、EdgeMoEは競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上している。
関連論文リスト
- Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Confidant: Customizing Transformer-based LLMs via Collaborative Edge
Training [18.526329975259483]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的な機能を示している。
コンピューティング、メモリ、エネルギー予算に制限のあるモバイルエッジデバイスにLSMをデプロイし、微調整することは困難である。
我々は,コモディティモバイルデバイス上での最先端のLCMをカスタマイズするためのマルチバックエンド協調学習フレームワークであるConfidantを提案する。
論文 参考訳(メタデータ) (2023-11-22T13:20:59Z) - SwapMoE: Efficient Memory-Constrained Serving of Large Sparse MoE Models
via Dynamic Expert Pruning and Swapping [23.60461848152645]
スワップモーエ(SwapMoE)は、チューナブルメモリの予算を扱う、MoEベースで効率的な大規模モデルを実現するためのフレームワークである。
SwapMoEの主な考え方は、仮想エキスパートという、重要な専門家の小さな動的なセットを推論のメインメモリに留めることである。
その結果,様々なメモリ制約下でのSwapMoEの顕著な性能が示された。
論文 参考訳(メタデータ) (2023-08-29T05:25:21Z) - Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable
Mixture-of-Expert Inference [24.371074891864936]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。
プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。
我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文 参考訳(メタデータ) (2023-08-23T11:25:37Z) - EMO: Episodic Memory Optimization for Few-Shot Meta-Learning [69.50380510879697]
メタ学習のためのエピソード記憶最適化は、EMOと呼ばれ、脳の記憶から過去の学習経験を思い出す人間の能力にインスパイアされている。
EMOは、限られた数の例によって提供される勾配が非形式的である場合でも、パラメータを正しい方向に更新する。
EMOは、ほとんど数ショットの分類ベンチマークでうまくスケールし、最適化ベースのメタラーニング手法の性能を改善している。
論文 参考訳(メタデータ) (2023-06-08T13:39:08Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。