論文の概要: From Sparse to Soft Mixtures of Experts
- arxiv url: http://arxiv.org/abs/2308.00951v1
- Date: Wed, 2 Aug 2023 05:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 13:48:54.101000
- Title: From Sparse to Soft Mixtures of Experts
- Title(参考訳): まばらで柔らかな専門家の混合物から
- Authors: Joan Puigcerver, Carlos Riquelme, Basil Mustafa, Neil Houlsby
- Abstract要約: 専門家アーキテクチャ(MoE)の疎結合は、トレーニングや推論コストを大きく増加させることなく、モデルのキャパシティをスケールする。
その成功にもかかわらず、MoEは不安定なトレーニング、トークンのドロップ、専門家の数をスケールできないこと、非効率な微調整など、多くの問題に悩まされている。
我々は、これらの課題に対処しつつ、MoEの利点を維持しながら、完全に微分可能なスパーストランスであるSoft MoEを提案する。
- 参考スコア(独自算出の注目度): 23.36069202482966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse mixture of expert architectures (MoEs) scale model capacity without
large increases in training or inference costs. Despite their success, MoEs
suffer from a number of issues: training instability, token dropping, inability
to scale the number of experts, or ineffective finetuning. In this work, we
proposeSoft MoE, a fully-differentiable sparse Transformer that addresses these
challenges, while maintaining the benefits of MoEs. Soft MoE performs an
implicit soft assignment by passing different weighted combinations of all
input tokens to each expert. As in other MoE works, experts in Soft MoE only
process a subset of the (combined) tokens, enabling larger model capacity at
lower inference cost. In the context of visual recognition, Soft MoE greatly
outperforms standard Transformers (ViTs) and popular MoE variants (Tokens
Choice and Experts Choice). For example, Soft MoE-Base/16 requires 10.5x lower
inference cost (5.7x lower wall-clock time) than ViT-Huge/14 while matching its
performance after similar training. Soft MoE also scales well: Soft MoE Huge/14
with 128 experts in 16 MoE layers has over 40x more parameters than ViT
Huge/14, while inference time cost grows by only 2%, and it performs
substantially better.
- Abstract(参考訳): 専門家アーキテクチャ(MoE)の疎結合は、トレーニングや推論コストを大きく増加させることなく、モデルのキャパシティをスケールする。
その成功にもかかわらず、moesはトレーニングの不安定さ、トークンの落とし込み、専門家の数をスケールできないこと、効果的でない微調整など、多くの問題に苦しんでいる。
本研究では,これらの課題に対処しつつ,MoEの利点を維持しつつ,完全微分可能なスパーストランスであるSoft MoEを提案する。
soft moeは、すべての入力トークンの異なる重み付けの組み合わせを各専門家に渡すことで、暗黙のソフト割り当てを実行する。
他のMoEの作業と同様に、Soft MoEの専門家は(組み合わせ)トークンのサブセットのみを処理し、推論コストの低いモデルキャパシティを実現する。
視覚認識の文脈では、Soft MoEは標準トランスフォーマー(ViT)と人気のあるMoE(Tokens ChoiceとExperts Choice)を大きく上回っている。
例えば、Soft MoE-Base/16はViT-Huge/14よりも10.5倍低い推論コスト (5.7倍のウォールクロック時間) を必要とする。
soft moe huge/14 16のmoe層で128人のエキスパートを持つsoft moe huge/14は、vit huge/14の40倍以上のパラメータを持ち、推論時間はわずか2%しかかからない。
関連論文リスト
- Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture
of Adapters [12.421601877508223]
最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。
本稿では,音響スペクトル変換器のパラメータ効率の高い微調整におけるMoEの使用を,下流の音声や音声の処理に用いていることを示す。
アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
論文 参考訳(メタデータ) (2024-02-01T18:16:04Z) - Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - SE-MoE: A Scalable and Efficient Mixture-of-Experts Distributed Training
and Inference System [24.335267149209848]
Mixture-of-Experts (MoE)モデルは、モデル/データ全体のサイズに応じてトレーニングコストを下げるために提案されている。
階層ストレージ上での2次元プリフェッチとフュージョン通信による弾性MoEトレーニングを提案するSE-MoEを提案する。
単一ノードでのスケーラブルな推論、特にモデルサイズがGPUメモリよりも大きい場合、SE-MoEはCPU-GPUメモリを1つのセクションのリングに結合してモデルを読み込む。
論文 参考訳(メタデータ) (2022-05-20T09:09:27Z) - Residual Mixture of Experts [75.5489156421442]
Residual Mixture of Experts (RMoE)は、下流タスクにおけるMoEビジョントランスフォーマーの効率的なトレーニングパイプラインである。
RMoEは上向きのMoEトレーニングで同等の結果を得るが、追加のトレーニングコストはわずかである。
論文 参考訳(メタデータ) (2022-04-20T17:29:48Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Beyond Distillation: Task-level Mixture-of-Experts for Efficient
Inference [17.97893143555333]
Sparse Mixture-of-Experts (MoE) は、トレーニング計算の比例的な増加を伴わずに、多言語翻訳モデルを数十億のパラメータに拡張する手法として成功している。
本研究では, 蒸留をバイパスするためのMoEモデルにおいて, 異なる粒度(トークン, 文, タスク)でのルーティング戦略について検討する。
WMTとWebスケールのデータセットの実験から、タスクレベルのルーティング(task-MoE)によって、大規模なスパースモデルからより小さく、準備の整ったサブネットワークを抽出できることが示唆された。
論文 参考訳(メタデータ) (2021-09-24T20:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。