論文の概要: Enhancing Efficiency in Sparse Models with Sparser Selection
- arxiv url: http://arxiv.org/abs/2403.18926v1
- Date: Tue, 27 Feb 2024 08:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 02:25:04.075262
- Title: Enhancing Efficiency in Sparse Models with Sparser Selection
- Title(参考訳): スペーサー選択によるスパースモデルの効率向上
- Authors: Yuanhang Yang, Shiyi Qi, Wenchao Gu, Chaozheng Wang, Cuiyun Gao, Zenglin Xu,
- Abstract要約: ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。
パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
- 参考スコア(独自算出の注目度): 30.687511115573038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse models, including sparse Mixture-of-Experts (MoE) models, have emerged as an effective approach for scaling Transformer models. However, they often suffer from computational inefficiency since a significant number of parameters are unnecessarily involved in computations via multiplying values by zero or low activation values. To address this issue, we present \tool, a novel MoE designed to enhance both the efficacy and efficiency of sparse MoE models. \tool leverages small experts and a threshold-based router to enable tokens to selectively engage only essential parameters. Our extensive experiments on language modeling and machine translation tasks demonstrate that \tool can enhance model performance while decreasing the computation load at MoE layers by over 50\% without sacrificing performance. Furthermore, we present the versatility of \tool by applying it to dense models, enabling sparse computation during inference. We provide a comprehensive analysis and make our code available at https://anonymous.4open.science/r/XMoE.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE)モデルを含むスパースモデルは、Transformerモデルをスケールするための効果的なアプローチとして現れている。
しかし、多くのパラメータがゼロまたは低いアクティベーション値の乗算によって計算に不要に関わっているため、計算の非効率さに悩まされることが多い。
この問題に対処するために,スパースモデルの有効性と効率性を両立させる新しいMOEである \tool を提案する。
\toolは小さなエキスパートとしきい値ベースのルータを活用して、トークンが必須パラメータのみを選択的にエンゲージできるようにする。
言語モデリングと機械翻訳タスクに関する広範な実験により,性能を犠牲にすることなく,MoE層での計算負荷を50%以上削減し,モデル性能を向上させることができることを示した。
さらに,高密度モデルに適用することで,推論時のスパース計算を可能にした。
包括的な分析を行い、https://anonymous.4open.science/r/XMoEでコードを利用できるようにします。
関連論文リスト
- Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。
PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。
我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。