論文の概要: Task-Specific Expert Pruning for Sparse Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2206.00277v2
- Date: Thu, 2 Jun 2022 03:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 11:54:30.489910
- Title: Task-Specific Expert Pruning for Sparse Mixture-of-Experts
- Title(参考訳): sparse mixed-of-expertsのタスク特化エキスパートpruning
- Authors: Tianyu Chen, Shaohan Huang, Yuan Xie, Binxing Jiao, Daxin Jiang, Haoyi
Zhou, Jianxin Li, Furu Wei
- Abstract要約: Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
- 参考スコア(独自算出の注目度): 105.20605021416276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The sparse Mixture-of-Experts (MoE) model is powerful for large-scale
pre-training and has achieved promising results due to its model capacity.
However, with trillions of parameters, MoE is hard to be deployed on cloud or
mobile environment. The inference of MoE requires expert parallelism, which is
not hardware-friendly and communication expensive. Especially for
resource-limited downstream tasks, such sparse structure has to sacrifice a lot
of computing efficiency for limited performance gains. In this work, we observe
most experts contribute scarcely little to the MoE fine-tuning and inference.
We further propose a general method to progressively drop the non-professional
experts for the target downstream task, which preserves the benefits of MoE
while reducing the MoE model into one single-expert dense model. Our
experiments reveal that the fine-tuned single-expert model could preserve 99.3%
benefits from MoE across six different types of tasks while enjoying 2x
inference speed with free communication cost.
- Abstract(参考訳): sparse Mixture-of-Experts (MoE) モデルは大規模事前トレーニングには強力であり,そのモデル能力により有望な結果を得た。
しかし、何兆というパラメータを持つMoEは、クラウドやモバイル環境にデプロイするのは難しい。
MoEの推論には、ハードウェアフレンドリで通信コストのかかる専門家の並列性が必要だ。
特にリソース制限のあるダウンストリームタスクの場合、そのようなスパース構造は性能向上のために多くの計算効率を犠牲にしなければならない。
この研究では、ほとんどの専門家がMoEの微調整と推論にほとんど貢献していないのを観察します。
さらに,目標下流タスクの非専門的専門家を段階的に降ろし,MoEモデルの利点を保ちながら,MoEモデルを1つの専門的高密度モデルに還元する手法を提案する。
実験の結果,6種類のタスクにまたがるmoeの99.3%の利点を保ちつつ,自由通信コストで2倍の推論速度を享受できることがわかった。
関連論文リスト
- A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。
MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。
本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文 参考訳(メタデータ) (2024-06-26T10:07:57Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient
MoE for Instruction Tuning [7.094820944028638]
我々は,MoEアーキテクチャと軽量専門家を組み合わせることで,極めてパラメータ効率の良いMoEを提案する。
本手法は,従来のタスク知識に依存しないため,目に見えないタスクに一般化する。
本研究は,厳密なパラメータ制約の下でも堅牢な性能を実現する能力を示す。
論文 参考訳(メタデータ) (2023-09-11T13:31:00Z) - Beyond Distillation: Task-level Mixture-of-Experts for Efficient
Inference [17.97893143555333]
Sparse Mixture-of-Experts (MoE) は、トレーニング計算の比例的な増加を伴わずに、多言語翻訳モデルを数十億のパラメータに拡張する手法として成功している。
本研究では, 蒸留をバイパスするためのMoEモデルにおいて, 異なる粒度(トークン, 文, タスク)でのルーティング戦略について検討する。
WMTとWebスケールのデータセットの実験から、タスクレベルのルーティング(task-MoE)によって、大規模なスパースモデルからより小さく、準備の整ったサブネットワークを抽出できることが示唆された。
論文 参考訳(メタデータ) (2021-09-24T20:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。