論文の概要: Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models
- arxiv url: http://arxiv.org/abs/2203.01104v1
- Date: Wed, 2 Mar 2022 13:44:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 13:31:39.616934
- Title: Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models
- Title(参考訳): 事前学習型言語モデルのためのパラメータ効率の良い混合処理アーキテクチャ
- Authors: Ze-Feng Gao, Peiyu Liu, Wayne Xin Zhao, Zhong-Yi Lu, Ji-Rong Wen
- Abstract要約: 量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
- 参考スコア(独自算出の注目度): 68.9288651177564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state-of-the-art Mixture-of-Experts (short as MoE) architecture has
achieved several remarkable successes in terms of increasing model capacity.
However, MoE has been hindered widespread adoption due to complexity,
communication costs, and training instability. Here we present a novel MoE
architecture based on matrix product operators (MPO) from quantum many-body
physics. It can decompose an original matrix into central tensors (containing
the core information) and auxiliary tensors (with only a small proportion of
parameters). With the decomposed MPO structure, we can reduce the parameters of
the original MoE architecture by sharing a global central tensor across experts
and keeping expert-specific auxiliary tensors. We also design the gradient mask
strategy for the tensor structure of MPO to alleviate the overfitting problem.
Experiments on the three well-known downstream natural language datasets based
on GPT2 show improved performance and efficiency in increasing model capacity
(7.26x fewer parameters with the same amount of experts). We additionally
demonstrate an improvement in the positive transfer effects of our approach for
multi-task learning.
- Abstract(参考訳): 最先端のMixture-of-Expertsアーキテクチャ(MoEと略される)は、モデル容量の増加という点でいくつかの顕著な成功を収めている。
しかし、MoEは複雑さ、通信コスト、およびトレーニング不安定性のために広く採用されることを妨げている。
ここでは、量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
元の行列を中心テンソル(コア情報を含む)と補助テンソル(パラメータのごく一部しか持たない)に分解することができる。
分解mpo構造により、専門家間でグローバル中心テンソルを共有し、専門家固有の補助テンソルを保持することにより、元のmoeアーキテクチャのパラメータを削減できる。
また,MPOのテンソル構造に対する勾配マスク戦略を設計し,オーバーフィッティング問題を緩和する。
GPT2に基づく3つの有名な下流自然言語データセットの実験では、モデルのキャパシティ向上のパフォーマンスと効率が向上した(同じ量の専門家を持つパラメータの7.26倍)。
また,マルチタスク学習におけるアプローチの肯定的伝達効果の改善も示す。
関連論文リスト
- Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts
for Instruction Tuning on General Tasks [6.048370838631722]
紹介する。
-高密度モデルからスパースモデルへの移行を効率よく行うPESC(Efficient Sparsity Crafting)。
PESCは、アダプタをスパースモデルのMoE層に統合し、これらの層内の個々の重みを変更することなく専門家を差別化する。
我々のスパースモデルであるCamelidaeは、他のすべてのオープンソーススパースモデルより優れており、GPT3.5と比較して優れた汎用能力を示している。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Towards Being Parameter-Efficient: A Stratified Sparsely Activated
Transformer with Dynamic Capacity [37.04254056062765]
Stratified Mixture of Experts (SMoE)モデルは、異なるトークンに動的キャパシティを割り当てることができる。
SMoEは、同じまたは少ないパラメータで複数の最先端MoEモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-03T15:18:18Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Improving Expert Specialization in Mixture of Experts [0.7366405857677227]
エキスパートの混合(MoE)は、最も単純なゲート付きモジュラーニューラルネットワークアーキテクチャである。
元のMoEアーキテクチャとそのトレーニング手法は直感的なタスク分解と優れた専門家の活用を保証するものではないことを示す。
我々は,注目度に類似した新しいゲーティングアーキテクチャを導入し,性能を向上し,エントロピータスクの分解を低くする。
論文 参考訳(メタデータ) (2023-02-28T16:16:45Z) - Equivariant Architectures for Learning in Deep Weight Spaces [54.61765488960555]
重み空間の学習のための新しいネットワークアーキテクチャを提案する。
入力として、事前訓練された不変量の重みとバイアスの連結をとる。
これらのレイヤを3つの基本的な操作で実装する方法を示す。
論文 参考訳(メタデータ) (2023-01-30T10:50:33Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。