論文の概要: MegaBlocks: Efficient Sparse Training with Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2211.15841v1
- Date: Tue, 29 Nov 2022 00:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 15:27:13.417796
- Title: MegaBlocks: Efficient Sparse Training with Mixture-of-Experts
- Title(参考訳): MegaBlocks:Mixture-of-Expertsによる効率的なスパーストレーニング
- Authors: Trevor Gale, Deepak Narayanan, Cliff Young, Matei Zaharia
- Abstract要約: MegaBlocksはGPU上でのMixture-of-Experts(MoE)トレーニングを効率的に行うシステムである。
ブロックスパース演算の観点からMoEを再構成し,新しいブロックスパースGPUカーネルを開発する。
当社のアプローチではトークンやマップを現代的なハードウェアに効率的にドロップすることはなく、MoEよりも最大40%のエンドツーエンドのトレーニングスピードアップを実現しています。
- 参考スコア(独自算出の注目度): 19.541303844245835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MegaBlocks, a system for efficient Mixture-of-Experts (MoE)
training on GPUs. Our system is motivated by the limitations of current
frameworks, which restrict the dynamic routing in MoE layers to satisfy the
constraints of existing software and hardware. These formulations force a
tradeoff between model quality and hardware efficiency, as users must choose
between dropping tokens from the computation or wasting computation and memory
on padding. To address these limitations, we reformulate MoE computation in
terms of block-sparse operations and develop new block-sparse GPU kernels that
efficiently handle the dynamism present in MoEs. Our approach never drops
tokens and maps efficiently to modern hardware, enabling end-to-end training
speedups of up to 40% over MoEs trained with the state-of-the-art Tutel library
and 2.4x over DNNs trained with the highly-optimized Megatron-LM framework.
- Abstract(参考訳): 我々は,GPU上でのMixture-of-Experts (MoE) トレーニングを効率的に行うシステムであるMegaBlocksを提案する。
我々のシステムは,既存のソフトウェアやハードウェアの制約を満たすため,MoE層の動的ルーティングを制限する現行フレームワークの制限によって動機付けられている。
これらの定式化は、ユーザーが計算からトークンをドロップするか、またはパッド上の計算とメモリを浪費するかを選択する必要があるため、モデル品質とハードウェア効率のトレードオフを引き起こす。
これらの制限に対処するため、ブロックスパース演算の観点からMoE計算を再構成し、MoEのダイナミズムを効率的に処理する新しいブロックスパースGPUカーネルを開発する。
最先端のtutelライブラリでトレーニングされたmoeの最大40%、高度に最適化されたmegatron-lmフレームワークでトレーニングされたdnnの2.4倍のスピードアップを実現しています。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Realizing Unaligned Block-wise Pruning for DNN Acceleration on Mobile Devices [1.6114012813668932]
ブロックワイドプルーニングは、スピードアップゲインに対する低い精度のドロップトレードオフのため、有望である。
Unaligned block pruning (UBP) は、任意の位置にブロックを選択できるようにすることによってこの問題に対処する。
ブロック拡張と分割という,擬似最適かつ高速なブロック選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-29T01:59:06Z) - Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。
私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。
本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文 参考訳(メタデータ) (2024-07-12T17:37:49Z) - Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference [23.207326766883405]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。
プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。
我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文 参考訳(メタデータ) (2023-08-23T11:25:37Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Bulk-Switching Memristor-based Compute-In-Memory Module for Deep Neural
Network Training [15.660697326769686]
本稿では,memristor-based Compute-in-Memory (CIM)モジュールの混合精度トレーニング手法を提案する。
提案方式は、完全に統合されたアナログCIMモジュールとデジタルサブシステムからなるシステムオンチップ(SoC)を用いて実装される。
より大規模なモデルのトレーニングの有効性は、現実的なハードウェアパラメータを用いて評価され、アナログCIMモジュールが、完全精度のソフトウェアトレーニングモデルに匹敵する精度で、効率的な混合精度トレーニングを可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-23T22:03:08Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - FastMoE: A Fast Mixture-of-Expert Training System [20.74001755688784]
Mixture-of-Expert (MoE) は言語モデルのサイズを数兆のパラメータに拡大する強力な可能性を示す。
FastMoEはPyTorchをベースとした分散MoEトレーニングシステムである。
論文 参考訳(メタデータ) (2021-03-24T15:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。