論文の概要: Beyond Distillation: Task-level Mixture-of-Experts for Efficient
Inference
- arxiv url: http://arxiv.org/abs/2110.03742v1
- Date: Fri, 24 Sep 2021 20:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 05:09:36.100615
- Title: Beyond Distillation: Task-level Mixture-of-Experts for Efficient
Inference
- Title(参考訳): 蒸留を超えて:効率的な推論のためのタスクレベルの混合
- Authors: Sneha Kudugunta, Yanping Huang, Ankur Bapna, Maxim Krikun, Dmitry
Lepikhin, Minh-Thang Luong and Orhan Firat
- Abstract要約: Sparse Mixture-of-Experts (MoE) は、トレーニング計算の比例的な増加を伴わずに、多言語翻訳モデルを数十億のパラメータに拡張する手法として成功している。
本研究では, 蒸留をバイパスするためのMoEモデルにおいて, 異なる粒度(トークン, 文, タスク)でのルーティング戦略について検討する。
WMTとWebスケールのデータセットの実験から、タスクレベルのルーティング(task-MoE)によって、大規模なスパースモデルからより小さく、準備の整ったサブネットワークを抽出できることが示唆された。
- 参考スコア(独自算出の注目度): 17.97893143555333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixture-of-Experts (MoE) has been a successful approach for scaling
multilingual translation models to billions of parameters without a
proportional increase in training computation. However, MoE models are
prohibitively large and practitioners often resort to methods such as
distillation for serving. In this work, we investigate routing strategies at
different granularity (token, sentence, task) in MoE models to bypass
distillation. Experiments on WMT and a web-scale dataset suggest that
task-level routing (task-MoE) enables us to extract smaller, ready-to-deploy
sub-networks from large sparse models. On WMT, our task-MoE with 32 experts
(533M parameters) outperforms the best performing token-level MoE model
(token-MoE) by +1.0 BLEU on average across 30 language pairs. The peak
inference throughput is also improved by a factor of 1.9x when we route by
tasks instead of tokens. While distilling a token-MoE to a smaller dense model
preserves only 32% of the BLEU gains, our sub-network task-MoE, by design,
preserves all the gains with the same inference cost as the distilled student
model. Finally, when scaling up to 200 language pairs, our 128-expert task-MoE
(13B parameters) performs competitively with a token-level counterpart, while
improving the peak inference throughput by a factor of 2.6x.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE)は、トレーニング計算の比例的な増加を伴わずに、多言語翻訳モデルを数十億のパラメータに拡張する成功例である。
しかし、MoEモデルは違法に大きめであり、実践者は蒸留などの方法を利用することが多い。
本研究では,moeモデルにおける異なる粒度(トケン,文,タスク)の経路戦略を調査し,蒸留をバイパスする。
WMTとWebスケールのデータセットの実験から、タスクレベルのルーティング(task-MoE)によって、大規模なスパースモデルからより小さく、準備の整ったサブネットワークを抽出できることが示唆された。
WMTでは、32人の専門家(533Mパラメータ)からなるタスク-MoEが、30言語対の平均で、トークンレベルのMoEモデル(token-MoE)を+1.0BLEUで上回ります。
ピーク推論のスループットも、トークンの代わりにタスクによってルーティングされるときに1.9倍向上する。
より小さな密度のモデルにトークン-MoEを蒸留するとBLEUゲインの32%しか保存できないが、私たちのサブネットワークタスク-MoEは、設計上、蒸留した学生モデルと同じ推論コストですべてのゲインを保存する。
最後に、200の言語ペアにスケールアップする場合、128のエキスパートタスク-MoE(13Bパラメータ)はトークンレベルの競合と競合し、ピーク推論スループットを2.6倍改善します。
関連論文リスト
- Mixture-of-Expert Conformer for Streaming Multilingual ASR [33.14594179710925]
本稿では,マルチランガル・コンバータによるマルチランガル・コンバータを提案する。
提案したMoE層は、専門家の数が増加するにつれて、一定の数のパラメータを活性化することで効率的な推論を提供する。
提案したモデルを12言語で評価し,ベースラインよりも平均11.9%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-05-25T02:16:32Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - SE-MoE: A Scalable and Efficient Mixture-of-Experts Distributed Training
and Inference System [24.335267149209848]
Mixture-of-Experts (MoE)モデルは、モデル/データ全体のサイズに応じてトレーニングコストを下げるために提案されている。
階層ストレージ上での2次元プリフェッチとフュージョン通信による弾性MoEトレーニングを提案するSE-MoEを提案する。
単一ノードでのスケーラブルな推論、特にモデルサイズがGPUメモリよりも大きい場合、SE-MoEはCPU-GPUメモリを1つのセクションのリングに結合してモデルを読み込む。
論文 参考訳(メタデータ) (2022-05-20T09:09:27Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。