論文の概要: Towards Being Parameter-Efficient: A Stratified Sparsely Activated
Transformer with Dynamic Capacity
- arxiv url: http://arxiv.org/abs/2305.02176v1
- Date: Wed, 3 May 2023 15:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 14:26:09.851585
- Title: Towards Being Parameter-Efficient: A Stratified Sparsely Activated
Transformer with Dynamic Capacity
- Title(参考訳): パラメータ効率を目指して:動的容量を持つ階層化スパース活性変圧器
- Authors: Haoran Xu, Maha Elbayad, Kenton Murray, Jean Maillard and Vedanuj
Goswami
- Abstract要約: 階層構造を特徴とし,異なるトークンに動的キャパシティを割り当てるSMOEモデルを提案する。
2つの多言語機械翻訳ベンチマークにおけるSMoEの有効性を示す。
- 参考スコア(独自算出の注目度): 14.115108896389932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-experts (MoE) models that employ sparse activation have
demonstrated effectiveness in significantly increasing the number of parameters
while maintaining low computational requirements per token. However, recent
studies have established that MoE models are inherently parameter-inefficient
as the improvement in performance diminishes with an increasing number of
experts. We hypothesize this parameter inefficiency is a result of all experts
having equal capacity, which may not adequately meet the varying complexity
requirements of different tokens or tasks, e.g., in a multilingual setting,
languages based on their resource levels might require different capacities. In
light of this, we propose Stratified Mixture of Experts(SMoE) models, which
feature a stratified structure and can assign dynamic capacity to different
tokens. We demonstrate the effectiveness of SMoE on two multilingual machine
translation benchmarks, where it outperforms multiple state-of-the-art MoE
models. On a diverse 15-language dataset, SMoE improves the translation quality
over vanilla MoE by +0.93 BLEU points on average. Additionally, SMoE is
parameter-efficient, matching vanilla MoE performance with around 50\% fewer
parameters.
- Abstract(参考訳): スパースアクティベーションを用いたMixture-of-Experts (MoE)モデルはトークン当たりの計算要求を低く保ちながらパラメータ数を著しく増加させる効果を示した。
しかし、近年の研究では、moeモデルの性能向上が専門家の増加とともに減少するにつれて、本質的にパラメータ非効率であることが判明している。
このパラメータの非効率性は、同じ能力を持つすべての専門家が、異なるトークンやタスクの異なる複雑さ要件を十分に満たしていない可能性があるため、例えば、多言語環境では、そのリソースレベルに基づく言語は、異なるキャパシティを必要とする可能性がある、と仮定する。
そこで本稿では,階層化された構造を特徴とし,異なるトークンに動的容量を割り当てる,階層化された専門家(smoe)モデルの混合を提案する。
本研究では,2つの多言語機械翻訳ベンチマークにおけるsmoeの有効性を示す。
多様な15言語データセット上で、SMoEはバニラMoEよりも平均で0.93 BLEUポイントの翻訳品質を改善する。
さらに、SMoE はパラメータ効率が良く、バニラ MoE のパフォーマンスは約 50 % のパラメータで一致している。
関連論文リスト
- HMoE: Heterogeneous Mixture of Experts for Language Modeling [45.65121689677227]
伝統的に、Mixture of Experts (MoE)モデルは同一容量の均一なエキスパートを使用する。
本稿では,HMOE(Heterogeneous Mixture of Experts)を提案する。
HMoEは、活性化パラメータを少なくして低い損失を達成し、様々な事前学習評価ベンチマークにおいて、従来の均質なMoEモデルより優れる。
論文 参考訳(メタデータ) (2024-08-20T09:35:24Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Models [33.834215393960605]
本稿では,トランスフォーマーに基づく基礎モデルのトレーニングと推論の効率を高めるために,DynMoE(Dynamic Mixture of Experts)技術を導入する。
DynMoEには、各トークンがアクティベートする専門家の数を自動的に決定できる新しいゲーティングメソッドが組み込まれている。
本研究は,視覚・言語タスクにおけるGMoEと視覚言語タスクにおけるMoE-LLaVAとの競合性能を比較検討した。
論文 参考訳(メタデータ) (2024-05-23T08:18:30Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。
パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-02-27T08:18:02Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。
PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。
我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。