論文の概要: Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference
- arxiv url: http://arxiv.org/abs/2401.08383v2
- Date: Wed, 17 Jan 2024 03:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 11:16:15.400809
- Title: Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference
- Title(参考訳): 実験用混合モデル推論の高速化のための層間エキスパート親和性
- Authors: Jinghan Yao, Quentin Anthony, Aamir Shafi, Hari Subramoni, Dhabaleswar
K. (DK) Panda
- Abstract要約: 本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
- 参考スコア(独自算出の注目度): 3.217776693788795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In large language models like the Generative Pre-trained Transformer, the
Mixture of Experts paradigm has emerged as a powerful technique for enhancing
model expressiveness and accuracy. However, deploying GPT MoE models for
parallel inference on distributed systems presents significant challenges,
primarily due to the extensive Alltoall communication required for expert
routing and aggregation. This communication bottleneck exacerbates the already
complex computational landscape, hindering the efficient utilization of
high-performance computing resources. In this paper, we propose a lightweight
optimization technique called ExFlow, to largely accelerate the inference of
these MoE models. We take a new perspective on alleviating the communication
overhead by exploiting the inter-layer expert affinity. Unlike previous
methods, our solution can be directly applied to pre-trained MoE models without
any fine-tuning or accuracy degradation. By proposing a context-coherent expert
parallelism on distributed systems, our design only uses one Alltoall
communication to deliver the same functionality while previous methods all
require two Alltoalls. By carefully examining the conditional probability in
tokens' routing across multiple layers, we proved that pre-trained GPT MoE
models implicitly exhibit a strong inter-layer expert affinity. We then design
an efficient integer programming model to capture such features and show that
by properly placing the experts on corresponding GPUs, we can reduce up to 67%
cross-GPU routing latency. Our solution beats the cutting-edge MoE
implementations with experts from 8 to 64, with up to 2.2x improvement in
inference throughput. We further provide a detailed study of how the model
implicitly acquires this expert affinity at the very early training stage and
how this affinity evolves and stabilizes during training.
- Abstract(参考訳): Generative Pre-trained Transformerのような大規模言語モデルでは、Mixture of Expertsパラダイムがモデル表現性と精度を高める強力なテクニックとして登場した。
しかし、分散システム上の並列推論のためのGPT MoEモデルをデプロイすることは、主にエキスパートのルーティングとアグリゲーションに必要なAlltoall通信が広範なため、大きな課題となる。
この通信ボトルネックは、既に複雑な計算環境を悪化させ、高性能コンピューティングリソースの効率的な利用を妨げる。
本稿では,これらのMoEモデルの推論を大幅に高速化する,ExFlowと呼ばれる軽量な最適化手法を提案する。
我々は、層間の専門家親和性を利用して通信オーバーヘッドを軽減する新しい視点を採っている。
従来の方法とは異なり,本手法は微調整や精度劣化を伴わずに,事前学習したMoEモデルに直接適用することができる。
分散システムにコンテキストコヒーレントな専門家並列性を提案することで、我々の設計では、1つのAlltoall通信のみを使用して同じ機能を提供する一方、以前のメソッドはすべて2つのAlltoallが必要です。
複数の層にまたがるトークンのルーティングにおける条件付き確率を慎重に調べることで、事前学習したGPT MoEモデルが強い層間専門家親和性を示すことを示した。
次に、これらの特徴を捉えるために効率的な整数プログラミングモデルを設計し、対応するGPUに専門家を適切に配置することで、最大67%のクロスGPUルーティングレイテンシを削減できることを示す。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
さらに,このモデルが極めて初期のトレーニング段階において,暗黙的にこのエキスパート親和性を獲得する方法と,その親和性がトレーニング中にどのように発展し安定化するかについて,詳細な研究を行った。
関連論文リスト
- Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - LocMoE: A Low-overhead MoE for Large Language Model Training [13.648568871134755]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts
for Instruction Tuning on General Tasks [6.048370838631722]
紹介する。
-高密度モデルからスパースモデルへの移行を効率よく行うPESC(Efficient Sparsity Crafting)。
PESCは、アダプタをスパースモデルのMoE層に統合し、これらの層内の個々の重みを変更することなく専門家を差別化する。
我々のスパースモデルであるCamelidaeは、他のすべてのオープンソーススパースモデルより優れており、GPT3.5と比較して優れた汎用能力を示している。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Revisiting Single-gated Mixtures of Experts [13.591354795556972]
より実践的なトレーニングを可能にする単純なシングルゲートMOEを再考することを提案する。
当社の仕事の鍵は、(i) アーリーエグジットとアンサンブルな正規化スキームの両方として機能するベースモデルブランチです。
提案モデルが他の複雑なMoEに匹敵する効率と精度のトレードオフを得ることを示す。
論文 参考訳(メタデータ) (2023-04-11T21:07:59Z) - Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。
このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。
本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-02-24T08:41:19Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z) - Fast Deep Mixtures of Gaussian Process Experts [0.6554326244334868]
教師付き学習コンテキストにおけるフレキシブルなモデリングには,専門家の混在が不可欠である。
本稿では、ディープニューラルネットワーク(DNN)を用いて、スパースGPから専門家を選択するためのゲーティングネットワークの設計を提案する。
CCR (Cluster-Classify-Regress) と呼ばれる高速なワンパスアルゴリズムを用いて、最大後部推定器(MAP)を極端に高速に近似する。
論文 参考訳(メタデータ) (2020-06-11T18:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。