論文の概要: MoEfication: Conditional Computation of Transformer Models for Efficient
Inference
- arxiv url: http://arxiv.org/abs/2110.01786v1
- Date: Tue, 5 Oct 2021 02:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:16:24.994211
- Title: MoEfication: Conditional Computation of Transformer Models for Efficient
Inference
- Title(参考訳): MoEfication:効率的な推論のための変圧器モデルの条件計算
- Authors: Zhengyan Zhang, Yankai Lin, Zhiyuan Liu, Peng Li, Maosong Sun, Jie
Zhou
- Abstract要約: トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
- 参考スコア(独自算出の注目度): 66.56994436947441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based pre-trained language models can achieve superior
performance on most NLP tasks due to large parameter capacity, but also lead to
huge computation cost. Fortunately, we find by empirical study that, most
inputs only activate a tiny ratio of neurons during inference. Hence, we
explore to accelerate large-model inference by conditional computation based on
the sparse activation phenomenon. We propose to transform a large model into
its mixture-of-experts (MoE) version with equal model size, namely MoEfication.
Model MoEfication consists of two steps: (1) splitting the parameters of
feed-forward neural networks (FFNs) into multiple parts as experts, and (2)
building expert routers to decide which experts will be used for each input. To
further improve the performance of MoEfied models, we can also fine-tune the
models on downstream tasks, namely parameter calibration. Experimental results
show that the MoEfied models can significantly reduce computation cost, e.g.,
only activating 20% FFN parameters of a 700-million-parameter model without
performance degradation on several downstream tasks including text
classification and reading comprehension.
- Abstract(参考訳): トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
幸いなことに、実験によって、ほとんどの入力は推論中に小さな神経細胞の割合しか活性化しないことがわかった。
そこで本研究では,スパースアクティベーション現象に基づく条件計算により,大規模モデル推論の高速化を図る。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
Model MoEficationは、(1)フィードフォワードニューラルネットワーク(FFN)のパラメータを専門家として複数の部分に分割し、(2)エキスパートルータを構築して、各入力にどの専門家が使用されるかを決定する。
MoEfiedモデルの性能をさらに向上するために、下流タスク、すなわちパラメータキャリブレーションでモデルを微調整することもできる。
実験結果から,MoEfiedモデルは,テキスト分類や読解理解などの下流タスクの性能低下を伴わずに,700万パラメータモデルの20%FFNパラメータを活性化するなど,計算コストを大幅に削減できることがわかった。
関連論文リスト
- Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Adaptive Resolution Inference (ARI): Energy-Efficient Machine Learning for Internet of Things [11.802983172874901]
Internet of Thingsデバイスにおける機械学習の実装は、限られたエネルギーと計算資源のために、重大な運用上の問題を引き起こす。
本稿では,エネルギー散逸とモデル性能の新たなトレードオフを評価する新しい手法である適応分解能推論(ARI)を提案する。
論文 参考訳(メタデータ) (2024-08-26T16:00:26Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。
パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-02-27T08:18:02Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Double and Single Descent in Causal Inference with an Application to
High-Dimensional Synthetic Control [2.3173485093942943]
機械学習では、非常に多くの自由パラメータがあり、モデルがトレーニングデータに完全に適合する。
多数の制御ユニットを有する高次元合成制御推定器の性能について述べる。
制御ユニットの追加は, 処理前適合が完璧である点を超えても, 計算性能の向上に有効であることがわかった。
論文 参考訳(メタデータ) (2023-05-01T07:54:53Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。