論文の概要: Sparse Backpropagation for MoE Training
- arxiv url: http://arxiv.org/abs/2310.00811v1
- Date: Sun, 1 Oct 2023 22:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 01:50:10.180454
- Title: Sparse Backpropagation for MoE Training
- Title(参考訳): MoEトレーニングのためのスパースバックプロパゲーション
- Authors: Liyuan Liu and Jianfeng Gao and Weizhu Chen
- Abstract要約: バックプロパゲーションとスパースエキスパートルーティングのギャップを埋めるスケーラブルな勾配推定器であるSparseMixerを紹介する。
SparseMixerは数値的なODEフレームワークを基盤として、2階のODEソルバであるミドルポイント法を利用して正確な勾配近似を行う。
事前トレーニングと機械翻訳の両方にSparseMixerをSwitch Transformerに適用すると、SparseMixerのパフォーマンスは大幅に向上する。
- 参考スコア(独自算出の注目度): 118.31785160874024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One defining characteristic of Mixture-of-Expert (MoE) models is their
capacity for conducting sparse computation via expert routing, leading to
remarkable scalability. However, backpropagation, the cornerstone of deep
learning, requires dense computation, thereby posting challenges in MoE
gradient computations. Here, we introduce SparseMixer, a scalable gradient
estimator that bridges the gap between backpropagation and sparse expert
routing. Unlike typical MoE training which strategically neglects certain
gradient terms for the sake of sparse computation and scalability, SparseMixer
provides scalable gradient approximations for these terms, enabling reliable
gradient estimation in MoE training. Grounded in a numerical ODE framework,
SparseMixer harnesses the mid-point method, a second-order ODE solver, to
deliver precise gradient approximations with negligible computational overhead.
Applying SparseMixer to Switch Transformer on both pre-training and machine
translation tasks, SparseMixer showcases considerable performance gain,
accelerating training convergence up to 2 times.
- Abstract(参考訳): Mixture-of-Expert(MoE)モデルの1つの特徴は、専門家のルーティングを通じてスパース計算を行う能力である。
しかし、ディープラーニングの基礎となるバックプロパゲーションは、密度の高い計算を必要とするため、MoE勾配計算における課題をポストする。
ここでは,バックプロパゲーションとスパースエキスパートルーティングのギャップを埋めるスケーラブルな勾配推定器であるsparsemixerを紹介する。
スパース計算とスケーラビリティのために一定の勾配項を戦略的に無視する典型的なMoEトレーニングとは異なり、SparseMixerはこれらの項に対してスケーラブルな勾配近似を提供し、MoEトレーニングにおいて信頼性の高い勾配推定を可能にする。
SparseMixerは数値的なODEフレームワークを基盤として、2階のODEソルバであるミドルポイント法を利用して、計算オーバーヘッドを無視できる精度の高い勾配近似を行う。
SparseMixerを事前トレーニングと機械翻訳の両方でSwitch Transformerに適用すると、SparseMixerは大幅なパフォーマンス向上を示し、トレーニング収束を最大2倍に加速する。
関連論文リスト
- Learning Mixtures of Experts with EM [28.48469221248906]
エキスパートの混合(MoE)は、入力空間を含む機械学習モデルであり、各パーティションでトレーニングされた別の"エキスパート"モデルである。
本稿では,MoEモデルのトレーニングにおける期待最大化(EM)アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2024-11-09T03:44:09Z) - Stepping Forward on the Last Mile [8.756033984943178]
本稿では,バックプロパゲーションと比較してメモリフットプリントと精度のギャップを低減させるアルゴリズムの一連の拡張を提案する。
その結果、エッジデバイス上でのモデルカスタマイズの最後のマイルでは、固定点前方勾配によるトレーニングが実現可能で実践的なアプローチであることが示されている。
論文 参考訳(メタデータ) (2024-11-06T16:33:21Z) - Gradient-free variational learning with conditional mixture networks [39.827869318925494]
条件付き混合ネットワーク(CMN)は、高速で勾配のない推論に適しており、複雑な分類タスクを解くことができる。
UCIレポジトリから標準ベンチマークで2層CMNをトレーニングすることで、このアプローチを検証する。
提案手法であるCAVI-CMNは,バックプロパゲーションを伴う最大推定値(MLE)と比較して,競合的かつしばしば優れた予測精度を実現する。
論文 参考訳(メタデータ) (2024-08-29T10:43:55Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Training Gaussian Boson Sampling Distributions [0.0]
GBS分布の解析的勾配式を導出し、標準手法を用いてデバイスを訓練することができる。
Kullback-Leibler 分岐や log-likelihood のコスト関数を用いたトレーニングでは、勾配を古典的に計算でき、高速なトレーニングにつながることを示す。
論文 参考訳(メタデータ) (2020-04-09T18:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。