論文の概要: Task-Specific Expert Pruning for Sparse Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2206.00277v2
- Date: Thu, 2 Jun 2022 03:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 11:54:30.489910
- Title: Task-Specific Expert Pruning for Sparse Mixture-of-Experts
- Title(参考訳): sparse mixed-of-expertsのタスク特化エキスパートpruning
- Authors: Tianyu Chen, Shaohan Huang, Yuan Xie, Binxing Jiao, Daxin Jiang, Haoyi
Zhou, Jianxin Li, Furu Wei
- Abstract要約: Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
- 参考スコア(独自算出の注目度): 105.20605021416276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The sparse Mixture-of-Experts (MoE) model is powerful for large-scale
pre-training and has achieved promising results due to its model capacity.
However, with trillions of parameters, MoE is hard to be deployed on cloud or
mobile environment. The inference of MoE requires expert parallelism, which is
not hardware-friendly and communication expensive. Especially for
resource-limited downstream tasks, such sparse structure has to sacrifice a lot
of computing efficiency for limited performance gains. In this work, we observe
most experts contribute scarcely little to the MoE fine-tuning and inference.
We further propose a general method to progressively drop the non-professional
experts for the target downstream task, which preserves the benefits of MoE
while reducing the MoE model into one single-expert dense model. Our
experiments reveal that the fine-tuned single-expert model could preserve 99.3%
benefits from MoE across six different types of tasks while enjoying 2x
inference speed with free communication cost.
- Abstract(参考訳): sparse Mixture-of-Experts (MoE) モデルは大規模事前トレーニングには強力であり,そのモデル能力により有望な結果を得た。
しかし、何兆というパラメータを持つMoEは、クラウドやモバイル環境にデプロイするのは難しい。
MoEの推論には、ハードウェアフレンドリで通信コストのかかる専門家の並列性が必要だ。
特にリソース制限のあるダウンストリームタスクの場合、そのようなスパース構造は性能向上のために多くの計算効率を犠牲にしなければならない。
この研究では、ほとんどの専門家がMoEの微調整と推論にほとんど貢献していないのを観察します。
さらに,目標下流タスクの非専門的専門家を段階的に降ろし,MoEモデルの利点を保ちながら,MoEモデルを1つの専門的高密度モデルに還元する手法を提案する。
実験の結果,6種類のタスクにまたがるmoeの99.3%の利点を保ちつつ,自由通信コストで2倍の推論速度を享受できることがわかった。
関連論文リスト
- Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation [44.43376913419967]
本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。
MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。
実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
論文 参考訳(メタデータ) (2023-12-27T15:23:37Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of
Low-rank Experts [79.82187318830955]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient
MoE for Instruction Tuning [7.094820944028638]
我々は,MoEアーキテクチャと軽量専門家を組み合わせることで,極めてパラメータ効率の良いMoEを提案する。
本手法は,従来のタスク知識に依存しないため,目に見えないタスクに一般化する。
本研究は,厳密なパラメータ制約の下でも堅牢な性能を実現する能力を示す。
論文 参考訳(メタデータ) (2023-09-11T13:31:00Z) - From Sparse to Soft Mixtures of Experts [23.36069202482966]
専門家アーキテクチャ(MoE)の疎結合は、トレーニングや推論コストを大きく増加させることなく、モデルのキャパシティをスケールする。
その成功にもかかわらず、MoEは不安定なトレーニング、トークンのドロップ、専門家の数をスケールできないこと、非効率な微調整など、多くの問題に悩まされている。
我々は、これらの課題に対処しつつ、MoEの利点を維持しながら、完全に微分可能なスパーストランスであるSoft MoEを提案する。
論文 参考訳(メタデータ) (2023-08-02T05:20:55Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Beyond Distillation: Task-level Mixture-of-Experts for Efficient
Inference [17.97893143555333]
Sparse Mixture-of-Experts (MoE) は、トレーニング計算の比例的な増加を伴わずに、多言語翻訳モデルを数十億のパラメータに拡張する手法として成功している。
本研究では, 蒸留をバイパスするためのMoEモデルにおいて, 異なる粒度(トークン, 文, タスク)でのルーティング戦略について検討する。
WMTとWebスケールのデータセットの実験から、タスクレベルのルーティング(task-MoE)によって、大規模なスパースモデルからより小さく、準備の整ったサブネットワークを抽出できることが示唆された。
論文 参考訳(メタデータ) (2021-09-24T20:42:16Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。