論文の概要: One Student Knows All Experts Know: From Sparse to Dense
- arxiv url: http://arxiv.org/abs/2201.10890v1
- Date: Wed, 26 Jan 2022 12:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 13:38:51.334993
- Title: One Student Knows All Experts Know: From Sparse to Dense
- Title(参考訳): 1人の学生がすべての専門家を知っている:スパースからデンスまで
- Authors: Fuzhao Xue, Xiaoxin He, Xiaozhe Ren, Yuxuan Lou, Yang You
- Abstract要約: Mixture-of-experts (MoE)は、複数の専門家を含む強力なスパースアーキテクチャである。
本研究では,1つの疎いMoEと同じくらいの知識を持つ高密度学生モデル(OneS)を得るための,新しい課題である知識統合を提案する。
- 参考スコア(独自算出の注目度): 12.074802848121664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human education system trains one student by multiple experts.
Mixture-of-experts (MoE) is a powerful sparse architecture including multiple
experts. However, sparse MoE model is hard to implement, easy to overfit, and
not hardware-friendly. In this work, inspired by human education model, we
propose a novel task, knowledge integration, to obtain a dense student model
(OneS) as knowledgeable as one sparse MoE. We investigate this task by
proposing a general training framework including knowledge gathering and
knowledge distillation. Specifically, we first propose Singular Value
Decomposition Knowledge Gathering (SVD-KG) to gather key knowledge from
different pretrained experts. We then refine the dense student model by
knowledge distillation to offset the noise from gathering. On ImageNet, our
OneS preserves $61.7\%$ benefits from MoE. OneS can achieve $78.4\%$ top-1
accuracy with only $15$M parameters. On four natural language processing
datasets, OneS obtains $88.2\%$ MoE benefits and outperforms SoTA by $51.7\%$
using the same architecture and training data. In addition, compared with the
MoE counterpart, OneS can achieve $3.7 \times$ inference speedup due to the
hardware-friendly architecture.
- Abstract(参考訳): 人間の教育システムは、複数の専門家によって1人の生徒を訓練します。
Mixture-of-experts (MoE)は、複数の専門家を含む強力なスパースアーキテクチャである。
しかし、疎いMoEモデルは実装が難しく、過度に適合し、ハードウェアフレンドリーではない。
本研究は,人間教育モデルに触発された新しい課題である知識統合を提案し,1つのまばらなMoEと同じくらいの知識を持つ高密度学生モデル(OneS)を得る。
本稿では,知識収集と知識蒸留を含む一般的な訓練枠組みを提案する。
具体的には,まずSingular Value Decomposition Knowledge Gathering (SVD-KG)を提案する。
そして, 知識蒸留による密集した学生モデルを精錬し, 収集音を相殺する。
ImageNetでは、OneSはMoEから611.7\%の利益を得られる。
OneSは$78.4\%の精度で$15$Mのパラメータしか得られない。
4つの自然言語処理データセットにおいて、OneSは800.2\%のMoE利益を得て、同じアーキテクチャとトレーニングデータを使用してSoTAを511.7\%で上回る。
加えて、MoEと比較すると、OneSはハードウェアフレンドリーなアーキテクチャのため、$3.7 \times$推論スピードアップを達成できる。
関連論文リスト
- Mixture of Modular Experts: Distilling Knowledge from a Multilingual Teacher into Specialized Modular Language Models [0.6372911857214884]
この研究は、知識蒸留(KD)とMixture of Experts(MoE)を組み合わせて、モジュール化された効率的な多言語言語モデルを開発する。
主な目的は、KDにおける適応型と固定型アルファメソッドの評価と、マルチドメイン入力を処理するモジュール型のMoEアーキテクチャの比較である。
論文 参考訳(メタデータ) (2024-07-28T23:42:09Z) - A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。
MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。
本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文 参考訳(メタデータ) (2024-06-26T10:07:57Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - DeepSeekMoE: Towards Ultimate Expert Specialization in
Mixture-of-Experts Language Models [26.447210565680116]
本稿では,DeepSeekMoEアーキテクチャを究極的専門家専門化に向けて提案する。
1) 専門家を$mN$に細分化し、そこから$mK$を活性化し、活性化された専門家のより柔軟な組み合わせを可能にする。
We show that DeepSeekMoE achieves comparable performance with GShard 2.9B。
論文 参考訳(メタデータ) (2024-01-11T17:31:42Z) - Prompt Tuning for Zero-shot Compositional Learning [53.090335182962605]
本稿では,Multi-Modal Prompt Tuning (MMPT) というフレームワークを提案する。
UT-Zapposデータセットでは、MMPTはAUCのスコアを29.8ドルまで押し上げ、前のベストスコアは26.5ドルとした。
より困難なMIT-Statesデータセットでは、AUCのMMPTスコアが現在の最先端の1.5倍向上している。
論文 参考訳(メタデータ) (2023-12-02T07:32:24Z) - Improving Expert Specialization in Mixture of Experts [0.7366405857677227]
エキスパートの混合(MoE)は、最も単純なゲート付きモジュラーニューラルネットワークアーキテクチャである。
元のMoEアーキテクチャとそのトレーニング手法は直感的なタスク分解と優れた専門家の活用を保証するものではないことを示す。
我々は,注目度に類似した新しいゲーティングアーキテクチャを導入し,性能を向上し,エントロピータスクの分解を低くする。
論文 参考訳(メタデータ) (2023-02-28T16:16:45Z) - Collaboration of Pre-trained Models Makes Better Few-shot Learner [49.89134194181042]
少ないショット分類では、限られた訓練画像からのみ、一般化された表現を学習するために、ディープニューラルネットワークが必要である。
最近、CLIPベースの手法は、対照的な言語イメージ事前トレーニングの恩恵を受け、有望な数ショットのパフォーマンスを示している。
我々は,様々な事前学習パラダイムから様々な事前知識を取り入れた事前学習モデルのコラボレーションであるCoMoを提案する。
論文 参考訳(メタデータ) (2022-09-25T16:23:12Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - Self-distillation with Batch Knowledge Ensembling Improves ImageNet
Classification [57.5041270212206]
本稿では,アンカー画像のためのソフトターゲットを生成するために,BAtch Knowledge Ensembling (BAKE)を提案する。
BAKEは、1つのネットワークだけで複数のサンプルを網羅するオンライン知識を実現する。
既存の知識集合法と比較して計算とメモリのオーバーヘッドは最小限である。
論文 参考訳(メタデータ) (2021-04-27T16:11:45Z) - A Mixture of $h-1$ Heads is Better than $h$ Heads [63.12336930345417]
我々は注意的専門家モデル(MAE)の混合を提案する。
機械翻訳と言語モデリングの実験により、MAEは両方のタスクにおいて強いベースラインを上回ります。
分析の結果、我々のモデルは、異なる専門家を異なる入力に専門化することを学びました。
論文 参考訳(メタデータ) (2020-05-13T19:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。