論文の概要: SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing
- arxiv url: http://arxiv.org/abs/2212.05191v1
- Date: Sat, 10 Dec 2022 03:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 17:24:43.079424
- Title: SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing
- Title(参考訳): SMILE: 効率的なバイレベルルーティングによるMixture-of-Expertsのスケーリング
- Authors: Chaoyang He, Shuai Zheng, Aston Zhang, George Karypis, Trishul
Chilimbi, Mahdi Soltanolkotabi, Salman Avestimehr
- Abstract要約: 我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
- 参考スコア(独自算出の注目度): 47.11171833082974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The mixture of Expert (MoE) parallelism is a recent advancement that scales
up the model size with constant computational cost. MoE selects different sets
of parameters (i.e., experts) for each incoming token, resulting in a
sparsely-activated model. Despite several successful applications of MoE, its
training efficiency degrades significantly as the number of experts increases.
The routing stage in MoE relies on the efficiency of the All2All communication
collective, which suffers from network congestion and has poor scalability. To
mitigate these issues, we introduce SMILE, which exploits heterogeneous network
bandwidth and splits a single-step routing into bi-level routing. Our
experimental results show that the proposed method obtains a 2.5x speedup over
Switch Transformer in terms of pretraining throughput on the Colossal Clean
Crawled Corpus without losing any convergence speed.
- Abstract(参考訳): エキスパート(MoE)並列性の混合は、モデルサイズを一定の計算コストでスケールアップする最近の進歩である。
MoEは入力トークンごとに異なるパラメータセット(すなわち専門家)を選択し、スパースアクティベートされたモデルを生成する。
MoEのいくつかの応用が成功したにもかかわらず、訓練効率は専門家の数が増えるにつれて著しく低下する。
moeのルーティング段階は、ネットワークの混雑に悩まされ、スケーラビリティに乏しいall2all通信集団の効率に依存している。
これらの問題を緩和するために,異種ネットワーク帯域幅を活用し,単一ステップのルーティングをバイレベルルーティングに分割したsmileを導入する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
関連論文リスト
- Router-Tuning: A Simple and Effective Approach for Enabling Dynamic-Depth in Transformers [40.40923861822689]
より重要でない層をスキップすることで計算深度を動的に調整するために,MoD(Mixture of Depths)を導入した。
約束にもかかわらず、現在のMoDアプローチは未探索のままであり、2つの大きな課題に直面している。
本稿では,小さなデータセット上でのみルータを微調整し,フルモデルトレーニングに伴う計算オーバーヘッドを大幅に削減するルータチューニングを提案する。
第2の課題として,動的深度でtextitAttention をデプロイする MindSkip を提案する。
論文 参考訳(メタデータ) (2024-10-17T03:23:50Z) - Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文 参考訳(メタデータ) (2022-06-07T15:20:20Z) - Gating Dropout: Communication-efficient Regularization for Sparsely
Activated Transformers [78.77361169167149]
本稿では,トークンがゲーティングネットワークを無視してローカルマシンに留まることを可能にするEmphGating Dropoutを提案する。
従来のドロップアウトと同様に、Gating Dropoutはトレーニング中に正規化効果があり、その結果、一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-28T05:12:43Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。