論文の概要: Sparse MoEs meet Efficient Ensembles
- arxiv url: http://arxiv.org/abs/2110.03360v2
- Date: Sun, 9 Jul 2023 19:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 19:42:23.604591
- Title: Sparse MoEs meet Efficient Ensembles
- Title(参考訳): スパースMoEが効率的なアンサンブルと出会う
- Authors: James Urquhart Allingham, Florian Wenzel, Zelda E Mariet, Basil
Mustafa, Joan Puigcerver, Neil Houlsby, Ghassen Jerfel, Vincent Fortuin,
Balaji Lakshminarayanan, Jasper Snoek, Dustin Tran, Carlos Riquelme Ruiz,
Rodolphe Jenatton
- Abstract要約: このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
- 参考スコア(独自算出の注目度): 49.313497379189315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models based on the aggregated outputs of submodels, either
at the activation or prediction levels, often exhibit strong performance
compared to individual models. We study the interplay of two popular classes of
such models: ensembles of neural networks and sparse mixture of experts (sparse
MoEs). First, we show that the two approaches have complementary features whose
combination is beneficial. This includes a comprehensive evaluation of sparse
MoEs in uncertainty related benchmarks. Then, we present Efficient Ensemble of
Experts (E$^3$), a scalable and simple ensemble of sparse MoEs that takes the
best of both classes of models, while using up to 45% fewer FLOPs than a deep
ensemble. Extensive experiments demonstrate the accuracy, log-likelihood,
few-shot learning, robustness, and uncertainty improvements of E$^3$ over
several challenging vision Transformer-based baselines. E$^3$ not only
preserves its efficiency while scaling to models with up to 2.7B parameters,
but also provides better predictive performance and uncertainty estimates for
larger models.
- Abstract(参考訳): サブモデルの集約された出力に基づく機械学習モデルは、アクティベーションレベルまたは予測レベルにおいて、個々のモデルと比較して強いパフォーマンスを示すことが多い。
本稿では,ニューラルネットワークのアンサンブルと,専門家のスパースミックス(スパースMoE)の2つの人気クラスの相互作用について検討する。
まず、2つのアプローチが相補的な特徴を持ち,それらの組み合わせが有益であることを示す。
これには、不確実性関連ベンチマークにおけるスパースMoEの包括的な評価が含まれる。
次に、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMOEのアンサンブルであるE$^3$(Efficient Ensemble of Experts)を紹介し、深いアンサンブルよりも最大45%少ないFLOPを使用する。
大規模な実験では、いくつかの難解な視覚トランスフォーマーベースのベースラインに対して、精度、ログライク、少数ショット学習、ロバスト性、E$^3$の不確実性の改善が示されている。
e$^3$は、最大2.7bのパラメータを持つモデルにスケールしながらその効率を維持するだけでなく、より大きなモデルに対する予測性能と不確実性の推定も改善する。
関連論文リスト
- Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。
IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。
ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。