論文の概要: Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers
- arxiv url: http://arxiv.org/abs/2303.01610v1
- Date: Thu, 2 Mar 2023 22:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 16:48:25.416010
- Title: Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers
- Title(参考訳): 新しいドロップアウトとしてのスパースMoE:スケーリングディッセンスとセルフスリムなトランス
- Authors: Tianlong Chen, Zhenyu Zhang, Ajay Jaiswal, Shiwei Liu, Zhangyang Wang
- Abstract要約: そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
- 参考スコア(独自算出の注目度): 107.3726071306935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their remarkable achievement, gigantic transformers encounter
significant drawbacks, including exorbitant computational and memory footprints
during training, as well as severe collapse evidenced by a high degree of
parameter redundancy. Sparsely-activated Mixture-of-Experts (SMoEs) have shown
promise to mitigate the issue of training efficiency, yet they are prone to (1)
redundant experts due to representational collapse; and (2) poor expert
scalability for inference and downstream fine-tuning, primarily due to
overfitting of the learned routing policy to the number of activated experts
during training. As recent research efforts are predominantly focused on
improving routing policies to encourage expert specializations, this work
focuses on exploring the overlooked scalability bottleneck of SMoEs and
leveraging it to effectively scale dense transformers. To this end, we propose
a new plug-and-play training framework, SMoE-Dropout, to enable scaling
transformers to better accuracy in their full capacity without collapse.
Specifically, SMoE-Dropout consists of a randomly initialized and fixed router
network to activate experts and gradually increases the activated expert number
as training progresses over time. Transformers trained by SMoE-Dropout
naturally exhibit a self-slimmable property subject to resource availability,
offering smooth and consistent performance boosts with an increase in activated
experts during inference or fine-tuning. Our extensive experiments demonstrate
the superior performance and substantial computation savings of SMoE-Dropout,
compared to dense training baselines with equivalent parameter counts. In
particular, our trained BERT outperforms its densely trained counterpart with
consistent improvements of {1.03%, 0.78%, 1.09%} on challenging reasoning tasks
{ASDiv-A, MAWPS, SVAMP}, respectively.
- Abstract(参考訳): 卓越した業績にもかかわらず、巨大なトランスフォーマーは、訓練中にエクサビタント計算やメモリフットプリント、そして高いパラメータ冗長性によって証明された深刻な崩壊など、重大な欠点に直面する。
SMOE(Sparsely-activated Mixture-of-Experts)は、トレーニング効率の問題を緩和する公約を示しているが、(1)表現的崩壊による冗長な専門家、(2)推論と下流の微調整のための未熟な専門家のスケーラビリティは、主に学習されたルーティングポリシーをトレーニング中にアクティブな専門家の数に過度に適合させるためである。
最近の研究は、専門家の専門化を促進するためにルーティングポリシーの改善に重点を置いているため、この研究は、SMoEの見過ごされたスケーラビリティボトルネックを探求し、それを高密度トランスフォーマーを効果的にスケールするために活用することに焦点を当てている。
そこで,本稿では,トランスフォーマーのスケール精度を向上させるための新しいプラグイン・アンド・プレイ訓練フレームワークであるsmoe-dropoutを提案する。
具体的には、smoe-dropoutはランダムに初期化され固定されたルータネットワークで構成され、専門家を活性化し、トレーニングが経つにつれて徐々に専門家番号を増加させる。
SMoE-Dropoutによって訓練されたトランスフォーマーは、自然にリソースの可用性を考慮し、スムーズで一貫したパフォーマンス向上を提供する。
実験では,等価パラメータ数を持つ集中トレーニングベースラインと比較して,smoe-dropoutの優れた性能と実質的な計算節約を実証した。
特に、トレーニングされたBERTは、難解推論タスク {ASDiv-A, MAWPS, SVAMP} に対して、{1.03%, 0.78%, 1.09%} の一貫性のある改善を伴って、密にトレーニングされている。
関連論文リスト
- Scaling Off-Policy Reinforcement Learning with Batch and Weight Normalization [15.605124749589946]
CrossQは,更新データ(UTD)比が1。
より高UTD比で強調されるトレーニングダイナミクスの課題を明らかにする。
提案手法はUTD比の増大とともに確実にスケールし,25の難易度連続制御タスクにまたがる競争性能を達成する。
論文 参考訳(メタデータ) (2025-02-11T12:55:32Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - A General and Efficient Training for Transformer via Token Expansion [44.002355107931805]
ビジョントランスフォーマー(ViT)は通常、非常に大きなトレーニングコストを必要とする。
既存の手法はViTの訓練を高速化しようと試みているが、通常は精度の低下を伴う手法を無視している。
本稿では,新しいトークン成長スキームであるToken Expansion(ToE)を提案し,ViTに対する一貫したトレーニングアクセラレーションを実現する。
論文 参考訳(メタデータ) (2024-03-31T12:44:24Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z) - Regularized Evolutionary Population-Based Training [11.624954122221562]
本稿では、DNNの重みのトレーニングと損失関数のメタラーニングをインターリーブするEPBT(Population-Based Training)アルゴリズムを提案する。
EPBTは画像分類ベンチマークを高速かつ正確に学習する。
論文 参考訳(メタデータ) (2020-02-11T06:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。