論文の概要: Sparse MoEs meet Efficient Ensembles
- arxiv url: http://arxiv.org/abs/2110.03360v1
- Date: Thu, 7 Oct 2021 11:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 16:12:33.125890
- Title: Sparse MoEs meet Efficient Ensembles
- Title(参考訳): スパースMoEが効率的なアンサンブルと出会う
- Authors: James Urquhart Allingham, Florian Wenzel, Zelda E Mariet, Basil
Mustafa, Joan Puigcerver, Neil Houlsby, Ghassen Jerfel, Vincent Fortuin,
Balaji Lakshminarayanan, Jasper Snoek, Dustin Tran, Carlos Riquelme Ruiz,
Rodolphe Jenatton
- Abstract要約: このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
両モデルのクラスを最大限に活用するスパースMOEの効率的なアンサンブルであるパーティショニングバッチアンサンブルを提示する。
- 参考スコア(独自算出の注目度): 43.995721070504146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models based on the aggregated outputs of submodels, either
at the activation or prediction levels, lead to strong performance. We study
the interplay of two popular classes of such models: ensembles of neural
networks and sparse mixture of experts (sparse MoEs). First, we show that these
two approaches have complementary features whose combination is beneficial.
Then, we present partitioned batch ensembles, an efficient ensemble of sparse
MoEs that takes the best of both classes of models. Extensive experiments on
fine-tuned vision transformers demonstrate the accuracy, log-likelihood,
few-shot learning, robustness, and uncertainty calibration improvements of our
approach over several challenging baselines. Partitioned batch ensembles not
only scale to models with up to 2.7B parameters, but also provide larger
performance gains for larger models.
- Abstract(参考訳): サブモデルの集約された出力に基づく機械学習モデルは、アクティベーションまたは予測レベルにおいて、強いパフォーマンスをもたらす。
本稿では,ニューラルネットワークのアンサンブルと,専門家のスパースミックス(スパースMoE)の2つの人気クラスの相互作用について検討する。
まず、これらの2つのアプローチが相補的な特徴を持つことを示す。
次に,モデルの両クラスを最良とするスパースモエの効率的なアンサンブルである分割バッチアンサンブルを提案する。
微調整型視覚変換器の広汎な実験は、いくつかの挑戦的なベースラインに対するアプローチの精度、ログライクな、数ショットの学習、堅牢性、不確実性の校正の改善を実証している。
分割されたバッチアンサンブルは、最大2.7Bパラメータを持つモデルにスケールするだけでなく、より大きなモデルに対してより大きなパフォーマンス向上を提供する。
関連論文リスト
- Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。
IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。
ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。