論文の概要: Revisiting Single-gated Mixtures of Experts
- arxiv url: http://arxiv.org/abs/2304.05497v1
- Date: Tue, 11 Apr 2023 21:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 16:44:15.950233
- Title: Revisiting Single-gated Mixtures of Experts
- Title(参考訳): 専門家の単一ゲーテッド混合物の再検討
- Authors: Amelie Royer, Ilia Karmanov, Andrii Skliar, Babak Ehteshami Bejnordi,
Tijmen Blankevoort
- Abstract要約: より実践的なトレーニングを可能にする単純なシングルゲートMOEを再考することを提案する。
当社の仕事の鍵は、(i) アーリーエグジットとアンサンブルな正規化スキームの両方として機能するベースモデルブランチです。
提案モデルが他の複雑なMoEに匹敵する効率と精度のトレードオフを得ることを示す。
- 参考スコア(独自算出の注目度): 13.591354795556972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture of Experts (MoE) are rising in popularity as a means to train
extremely large-scale models, yet allowing for a reasonable computational cost
at inference time. Recent state-of-the-art approaches usually assume a large
number of experts, and require training all experts jointly, which often lead
to training instabilities such as the router collapsing In contrast, in this
work, we propose to revisit the simple single-gate MoE, which allows for more
practical training. Key to our work are (i) a base model branch acting both as
an early-exit and an ensembling regularization scheme, (ii) a simple and
efficient asynchronous training pipeline without router collapse issues, and
finally (iii) a per-sample clustering-based initialization. We show
experimentally that the proposed model obtains efficiency-to-accuracy
trade-offs comparable with other more complex MoE, and outperforms non-mixture
baselines. This showcases the merits of even a simple single-gate MoE, and
motivates further exploration in this area.
- Abstract(参考訳): 専門家の混合(moe)は、非常に大規模なモデルを訓練する手段として人気が高まっているが、推論時に合理的な計算コストを許容している。
最近の最先端のアプローチでは、多くの専門家を想定し、すべての専門家を共同で訓練する必要があるため、ルータの崩壊のような不安定なトレーニングにつながることが多いが、本研究では、より実用的なトレーニングを可能にする単純な単ゲートmoeを再考する。
私たちの仕事の鍵は
(i)初期出力とセンシング正規化スキームの両方として機能するベースモデル分岐
(ii)ルータ崩壊問題のないシンプルで効率的な非同期トレーニングパイプライン、そして最後に
(iii)サンプル単位のクラスタリングに基づく初期化。
提案モデルでは,他の複雑なMoEに匹敵する効率と精度のトレードオフが得られ,非混合ベースラインよりも優れていることを示す。
これは単純な単一ゲートMOEの利点を示し、この地域のさらなる探検を動機付けている。
関連論文リスト
- LocMoE: A Low-overhead MoE for Large Language Model Training [13.648568871134755]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Domain Generalization via Balancing Training Difficulty and Model
Capability [61.053202176230904]
ドメイン一般化(Domain Generalization, DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。
最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされている。
我々は、モデルの能力とサンプルの難易度の間のシーソーのバランスをとることで、ミスアライメントに対処するMomentum DifficultyフレームワークであるMoDifyを設計する。
論文 参考訳(メタデータ) (2023-09-02T07:09:23Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - EBJR: Energy-Based Joint Reasoning for Adaptive Inference [10.447353952054492]
最先端のディープラーニングモデルは、さまざまなベンチマークで大きなパフォーマンスレベルを達成した。
一方、軽量アーキテクチャは適度な精度を実現しますが、より望ましいレイテンシを実現しています。
本稿では,大規模高精度モデルと小型高速モデルとを併用する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-20T02:33:31Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Pool of Experts: Realtime Querying Specialized Knowledge in Massive
Neural Networks [0.20305676256390928]
本稿では,Pool of Experts(PoE)と呼ばれるフレームワークを提案する。
リアルタイムのモデルクエリサービスのために、PoEはまずエキスパートと呼ばれるプリミティブなコンポーネントのプールを、十分に訓練された十分に汎用的なネットワークから抽出する。
PoEは、かなり正確でコンパクトなモデルをリアルタイムに構築できますが、同じレベルの精度を達成するには、他のトレーニングメソッドに対して、クエリ毎に数分かかります。
論文 参考訳(メタデータ) (2021-07-03T06:31:54Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。