論文の概要: From Sparse to Soft Mixtures of Experts
- arxiv url: http://arxiv.org/abs/2308.00951v2
- Date: Mon, 27 May 2024 11:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 12:18:33.705717
- Title: From Sparse to Soft Mixtures of Experts
- Title(参考訳): スパースからソフトミックスへ
- Authors: Joan Puigcerver, Carlos Riquelme, Basil Mustafa, Neil Houlsby,
- Abstract要約: 専門家アーキテクチャ(MoE)の疎結合は、トレーニングや推論コストを大幅に増加させることなく、モデルのキャパシティをスケールする。
トレーニングの不安定性、トークンのドロップ、専門家の数をスケールできないこと、非効率な微調整などだ。
我々は、これらの課題に対処しつつ、MoEの利点を維持しながら、完全に微分可能なスパーストランスであるSoft MoEを提案する。
- 参考スコア(独自算出の注目度): 37.45298227203026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse mixture of expert architectures (MoEs) scale model capacity without significant increases in training or inference costs. Despite their success, MoEs suffer from a number of issues: training instability, token dropping, inability to scale the number of experts, or ineffective finetuning. In this work, we propose Soft MoE, a fully-differentiable sparse Transformer that addresses these challenges, while maintaining the benefits of MoEs. Soft MoE performs an implicit soft assignment by passing different weighted combinations of all input tokens to each expert. As in other MoEs, experts in Soft MoE only process a subset of the (combined) tokens, enabling larger model capacity (and performance) at lower inference cost. In the context of visual recognition, Soft MoE greatly outperforms dense Transformers (ViTs) and popular MoEs (Tokens Choice and Experts Choice). Furthermore, Soft MoE scales well: Soft MoE Huge/14 with 128 experts in 16 MoE layers has over 40x more parameters than ViT Huge/14, with only 2% increased inference time, and substantially better quality.
- Abstract(参考訳): 専門家アーキテクチャ(MoE)の疎結合は、トレーニングや推論コストを大幅に増加させることなく、モデルのキャパシティをスケールする。
その成功にもかかわらず、MoEは不安定なトレーニング、トークンのドロップ、専門家の数をスケールできないこと、非効率な微調整など、多くの問題に悩まされている。
本研究では,これらの課題に対処しつつ,MoEの利点を維持しつつ,完全微分可能なスパーストランスであるSoft MoEを提案する。
ソフトなMoEは、すべての入力トークンの異なる重み付けの組み合わせを専門家に渡すことで、暗黙のソフトな割り当てを行う。
他のMoEと同様に、Soft MoEの専門家は(組み合わせ)トークンのサブセットのみを処理し、推論コストの低いモデルキャパシティ(とパフォーマンス)を実現する。
視覚認識の文脈では、Soft MoEは密度の高いトランスフォーマー(ViT)と人気のMoE(Tokens Choice and Experts Choice)を大きく上回っている。
さらに、Soft MoE Huge/14は16のMoE層に128人の専門家がおり、ViT Huge/14よりも40倍以上のパラメータを持ち、推論時間がわずか2%増加し、品質が大幅に向上した。
関連論文リスト
- Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE) パラダイムは、密度の高い層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分な専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters [11.05223262950967]
最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。
本稿では,音響スペクトル変換器のパラメータ効率の高い微調整におけるMoEの使用を,下流の音声や音声の処理に用いていることを示す。
アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
論文 参考訳(メタデータ) (2024-02-01T18:16:04Z) - Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - Beyond Distillation: Task-level Mixture-of-Experts for Efficient
Inference [17.97893143555333]
Sparse Mixture-of-Experts (MoE) は、トレーニング計算の比例的な増加を伴わずに、多言語翻訳モデルを数十億のパラメータに拡張する手法として成功している。
本研究では, 蒸留をバイパスするためのMoEモデルにおいて, 異なる粒度(トークン, 文, タスク)でのルーティング戦略について検討する。
WMTとWebスケールのデータセットの実験から、タスクレベルのルーティング(task-MoE)によって、大規模なスパースモデルからより小さく、準備の整ったサブネットワークを抽出できることが示唆された。
論文 参考訳(メタデータ) (2021-09-24T20:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。