Fugu-MT 論文翻訳(概要): SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing

論文の概要: SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing

arxiv url: http://arxiv.org/abs/2212.05191v1
Date: Sat, 10 Dec 2022 03:44:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-13 17:24:43.079424
Title: SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing
Title（参考訳）: SMILE: 効率的なバイレベルルーティングによるMixture-of-Expertsのスケーリング
Authors: Chaoyang He, Shuai Zheng, Aston Zhang, George Karypis, Trishul Chilimbi, Mahdi Soltanolkotabi, Salman Avestimehr
Abstract要約: 我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
参考スコア（独自算出の注目度）: 47.11171833082974
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The mixture of Expert (MoE) parallelism is a recent advancement that scales up the model size with constant computational cost. MoE selects different sets of parameters (i.e., experts) for each incoming token, resulting in a sparsely-activated model. Despite several successful applications of MoE, its training efficiency degrades significantly as the number of experts increases. The routing stage in MoE relies on the efficiency of the All2All communication collective, which suffers from network congestion and has poor scalability. To mitigate these issues, we introduce SMILE, which exploits heterogeneous network bandwidth and splits a single-step routing into bi-level routing. Our experimental results show that the proposed method obtains a 2.5x speedup over Switch Transformer in terms of pretraining throughput on the Colossal Clean Crawled Corpus without losing any convergence speed.
Abstract（参考訳）: エキスパート(MoE)並列性の混合は、モデルサイズを一定の計算コストでスケールアップする最近の進歩である。 MoEは入力トークンごとに異なるパラメータセット(すなわち専門家)を選択し、スパースアクティベートされたモデルを生成する。 MoEのいくつかの応用が成功したにもかかわらず、訓練効率は専門家の数が増えるにつれて著しく低下する。 moeのルーティング段階は、ネットワークの混雑に悩まされ、スケーラビリティに乏しいall2all通信集団の効率に依存している。これらの問題を緩和するために,異種ネットワーク帯域幅を活用し,単一ステップのルーティングをバイレベルルーティングに分割したsmileを導入する。提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。

関連論文リスト

ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。 ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文参考訳（メタデータ） (2025-03-10T03:15:54Z)
Continual Pre-training of MoEs: How robust is your router? [25.438359533860954]
MoEは、トレーニング時のサンプル効率の改善と、より強力なパフォーマンスの恩恵を受ける。多くのクローズドソースおよびオープンソースフロンティア言語モデルは、MoEアーキテクチャを採用している。 CPTにおいて, MoE LLMはサンプル効率(FLOP整合密度モデルと比較して)を維持し, 完全に再学習した MoE の性能を, コストのごく一部で一致させることができることを示した。
論文参考訳（メタデータ） (2025-03-06T22:55:01Z)
M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference [8.792650582656913]
M2R2(Mixture of Multi-rate Residuals)は,残差速度を動的に変調して早期アライメントを改善するフレームワークである。 M2R2は最先端の距離ベースの戦略を超え、生成品質とスピードアップのバランスをとる。自己投機的復号化では、M2R2はMT-Benchで最大2.8倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-02-04T06:13:52Z)
Router-Tuning: A Simple and Effective Approach for Enabling Dynamic-Depth in Transformers [40.40923861822689]
より重要でない層をスキップすることで計算深度を動的に調整するために,MoD(Mixture of Depths)を導入した。約束にもかかわらず、現在のMoDアプローチは未探索のままであり、2つの大きな課題に直面している。本稿では,小さなデータセット上でのみルータを微調整し,フルモデルトレーニングに伴う計算オーバーヘッドを大幅に削減するルータチューニングを提案する。第2の課題として,動的深度でtextitAttention をデプロイする MindSkip を提案する。
論文参考訳（メタデータ） (2024-10-17T03:23:50Z)
Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。現在のMoEモデルはパラメータ非効率をしばしば表示する。我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文参考訳（メタデータ） (2024-08-13T10:25:13Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文参考訳（メタデータ） (2024-01-25T03:36:39Z)
Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文参考訳（メタデータ） (2023-06-07T00:16:10Z)
Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文参考訳（メタデータ） (2022-06-07T15:20:20Z)
Gating Dropout: Communication-efficient Regularization for Sparsely Activated Transformers [78.77361169167149]
本稿では,トークンがゲーティングネットワークを無視してローカルマシンに留まることを可能にするEmphGating Dropoutを提案する。従来のドロップアウトと同様に、Gating Dropoutはトレーニング中に正規化効果があり、その結果、一般化性能が向上することを示す。
論文参考訳（メタデータ） (2022-05-28T05:12:43Z)
StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文参考訳（メタデータ） (2022-04-18T16:48:19Z)
Low-Latency Federated Learning over Wireless Channels with Differential Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文参考訳（メタデータ） (2021-06-20T13:51:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。