論文の概要: Sparse Mixers: Combining MoE and Mixing to build a more efficient BERT
- arxiv url: http://arxiv.org/abs/2205.12399v1
- Date: Tue, 24 May 2022 23:08:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:46:20.345474
- Title: Sparse Mixers: Combining MoE and Mixing to build a more efficient BERT
- Title(参考訳): スパースミキサー:より効率的なBERTを構築するためにMoEとミキシングを組み合わせる
- Authors: James Lee-Thorp and Joshua Ainslie
- Abstract要約: 本研究では,Sparse Mixer Encoderモデルの設計において,Sparsely gated Mixture-of-Experts (MoE) のキャパシティと線形混合変換の速度と安定性を組み合わせる。
Sparse Mixer は GLUE と SuperGLUE で BERT をわずかに上回り (1%) 、列車は 65% 速く、推論は 61% 速い。
高速スパースミキサー(Fast Sparse Mixer)という,SuperGLUE上のBERT(0.2%)をわずかに過小評価しているが,その2倍近い速度で走行する高速変種も提示する。
- 参考スコア(独自算出の注目度): 5.437306310290864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We combine the capacity of sparsely gated Mixture-of-Experts (MoE) with the
speed and stability of linear, mixing transformations to design the Sparse
Mixer encoder model. The Sparse Mixer slightly outperforms (<1%) BERT on GLUE
and SuperGLUE, but more importantly trains 65% faster and runs inference 61%
faster. We also present a faster variant, prosaically named Fast Sparse Mixer,
that marginally underperforms (<0.2%) BERT on SuperGLUE, but trains and runs
nearly twice as fast: 89% faster training and 98% faster inference. We justify
the design of these two models by carefully ablating through various mixing
mechanisms, MoE configurations and model hyperparameters. The Sparse Mixer
overcomes many of the latency and stability concerns of MoE models and offers
the prospect of serving sparse student models, without resorting to distilling
them to dense variants.
- Abstract(参考訳): sparsely gated mixture-of-experts (moe) の容量と線形混合変換の速度と安定性を組み合わせることで,sparse mixer エンコーダモデルを設計する。
スパースミキサーは、グルーとスーパーグルーで (<1%) bert をわずかに上回っているが、より重要なことは 65% 高速にトレーニングし、推論を 61% 速く実行することである。
高速スパースミキサー(Fast Sparse Mixer)という,SuperGLUEでは(0.2%)BERTをわずかに過小評価するが,ほぼ2倍の速度で動作し,トレーニングが89%,推論が98%高速である。
これら2つのモデルの設計を、様々な混合機構、moe構成、およびモデルハイパーパラメータを慎重にアブレーションすることによって正当化する。
Sparse Mixerは、MoEモデルのレイテンシと安定性の多くを克服し、より密度の高い変種に蒸留することなく、スパース学生モデルを提供する見込みを提供する。
関連論文リスト
- MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。
入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。
我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文 参考訳(メタデータ) (2024-10-15T19:22:27Z) - MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts大言語モデル(MoE-LLM)のためのトレーニング不要なMixture-CompressorであるMC-MoEを提案する。
MC-MoEは、専門家とトークンの両方の重要性を活用して極端な圧縮を実現する。
例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Revisiting MoE and Dense Speed-Accuracy Comparisons for LLM Training [45.97480866595295]
Mixture-of-Experts (MoE)は、計算コストを一定に保ちながら、モデルキャパシティを増大させることにより、パフォーマンスの向上を享受する。
我々は高密度から高密度までのステップタイムを健全な範囲で増加させる3Dシャーディング法を採用した。
論文 参考訳(メタデータ) (2024-05-23T21:00:53Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - SplitMixer: Fat Trimmed From MLP-like Models [53.12472550578278]
視覚認識のためのシンプルで軽量な等方的アーキテクチャであるSplitMixerを提案する。
情報(空間混合)とチャネル(チャネル混合)の2種類のインターリーブ畳み込み操作を含む。
論文 参考訳(メタデータ) (2022-07-21T01:37:07Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - FastBERT: a Self-distilling BERT with Adaptive Inference Time [14.207970599841218]
我々のモデルは、12の英語と中国語のデータセットで有望な結果を得る。
スピードアップしきい値が異なる場合、BERTの1倍から12倍の範囲でスピードアップすることができる。
論文 参考訳(メタデータ) (2020-04-05T12:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。