論文の概要: Towards Being Parameter-Efficient: A Stratified Sparsely Activated
Transformer with Dynamic Capacity
- arxiv url: http://arxiv.org/abs/2305.02176v1
- Date: Wed, 3 May 2023 15:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 14:26:09.851585
- Title: Towards Being Parameter-Efficient: A Stratified Sparsely Activated
Transformer with Dynamic Capacity
- Title(参考訳): パラメータ効率を目指して:動的容量を持つ階層化スパース活性変圧器
- Authors: Haoran Xu, Maha Elbayad, Kenton Murray, Jean Maillard and Vedanuj
Goswami
- Abstract要約: 階層構造を特徴とし,異なるトークンに動的キャパシティを割り当てるSMOEモデルを提案する。
2つの多言語機械翻訳ベンチマークにおけるSMoEの有効性を示す。
- 参考スコア(独自算出の注目度): 14.115108896389932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-experts (MoE) models that employ sparse activation have
demonstrated effectiveness in significantly increasing the number of parameters
while maintaining low computational requirements per token. However, recent
studies have established that MoE models are inherently parameter-inefficient
as the improvement in performance diminishes with an increasing number of
experts. We hypothesize this parameter inefficiency is a result of all experts
having equal capacity, which may not adequately meet the varying complexity
requirements of different tokens or tasks, e.g., in a multilingual setting,
languages based on their resource levels might require different capacities. In
light of this, we propose Stratified Mixture of Experts(SMoE) models, which
feature a stratified structure and can assign dynamic capacity to different
tokens. We demonstrate the effectiveness of SMoE on two multilingual machine
translation benchmarks, where it outperforms multiple state-of-the-art MoE
models. On a diverse 15-language dataset, SMoE improves the translation quality
over vanilla MoE by +0.93 BLEU points on average. Additionally, SMoE is
parameter-efficient, matching vanilla MoE performance with around 50\% fewer
parameters.
- Abstract(参考訳): スパースアクティベーションを用いたMixture-of-Experts (MoE)モデルはトークン当たりの計算要求を低く保ちながらパラメータ数を著しく増加させる効果を示した。
しかし、近年の研究では、moeモデルの性能向上が専門家の増加とともに減少するにつれて、本質的にパラメータ非効率であることが判明している。
このパラメータの非効率性は、同じ能力を持つすべての専門家が、異なるトークンやタスクの異なる複雑さ要件を十分に満たしていない可能性があるため、例えば、多言語環境では、そのリソースレベルに基づく言語は、異なるキャパシティを必要とする可能性がある、と仮定する。
そこで本稿では,階層化された構造を特徴とし,異なるトークンに動的容量を割り当てる,階層化された専門家(smoe)モデルの混合を提案する。
本研究では,2つの多言語機械翻訳ベンチマークにおけるsmoeの有効性を示す。
多様な15言語データセット上で、SMoEはバニラMoEよりも平均で0.93 BLEUポイントの翻訳品質を改善する。
さらに、SMoE はパラメータ効率が良く、バニラ MoE のパフォーマンスは約 50 % のパラメータで一致している。
関連論文リスト
- Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Enhancing Efficiency in Sparse Models with Sparser Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。
パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-02-27T08:18:02Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts
for Instruction Tuning on General Tasks [6.048370838631722]
紹介する。
-高密度モデルからスパースモデルへの移行を効率よく行うPESC(Efficient Sparsity Crafting)。
PESCは、アダプタをスパースモデルのMoE層に統合し、これらの層内の個々の重みを変更することなく専門家を差別化する。
我々のスパースモデルであるCamelidaeは、他のすべてのオープンソーススパースモデルより優れており、GPT3.5と比較して優れた汎用能力を示している。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - Mixture-of-Expert Conformer for Streaming Multilingual ASR [33.14594179710925]
本稿では,マルチランガル・コンバータによるマルチランガル・コンバータを提案する。
提案したMoE層は、専門家の数が増加するにつれて、一定の数のパラメータを活性化することで効率的な推論を提供する。
提案したモデルを12言語で評価し,ベースラインよりも平均11.9%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-05-25T02:16:32Z) - Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for
End-to-End Speech Recognition [17.73449206184214]
本稿では,スパースゲート型エキスパートの共有によるパラメータ効率の高いコンバータを提案する。
具体的には,コンバータブロックの容量を増大させることなく,スパースゲート・オブ・エグゼクティブ(MoE)を用いて,コンバータブロックの容量を拡大する。
論文 参考訳(メタデータ) (2022-09-17T13:22:19Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Multi-Unit Transformers for Neural Machine Translation [51.418245676894465]
マルチユニット変換器 (MUTE) を提案し, 変換器の表現性を向上する。
具体的には、複数の並列ユニットを使用し、複数のユニットによるモデリングがモデル性能を改善し、多様性を導入することを示す。
論文 参考訳(メタデータ) (2020-10-21T03:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。