Fugu-MT 論文翻訳(概要): Revisiting Single-gated Mixtures of Experts

論文の概要: Revisiting Single-gated Mixtures of Experts

arxiv url: http://arxiv.org/abs/2304.05497v1
Date: Tue, 11 Apr 2023 21:07:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-13 16:44:15.950233
Title: Revisiting Single-gated Mixtures of Experts
Title（参考訳）: 専門家の単一ゲーテッド混合物の再検討
Authors: Amelie Royer, Ilia Karmanov, Andrii Skliar, Babak Ehteshami Bejnordi, Tijmen Blankevoort
Abstract要約: より実践的なトレーニングを可能にする単純なシングルゲートMOEを再考することを提案する。当社の仕事の鍵は、(i) アーリーエグジットとアンサンブルな正規化スキームの両方として機能するベースモデルブランチです。提案モデルが他の複雑なMoEに匹敵する効率と精度のトレードオフを得ることを示す。
参考スコア（独自算出の注目度）: 13.591354795556972
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mixture of Experts (MoE) are rising in popularity as a means to train extremely large-scale models, yet allowing for a reasonable computational cost at inference time. Recent state-of-the-art approaches usually assume a large number of experts, and require training all experts jointly, which often lead to training instabilities such as the router collapsing In contrast, in this work, we propose to revisit the simple single-gate MoE, which allows for more practical training. Key to our work are (i) a base model branch acting both as an early-exit and an ensembling regularization scheme, (ii) a simple and efficient asynchronous training pipeline without router collapse issues, and finally (iii) a per-sample clustering-based initialization. We show experimentally that the proposed model obtains efficiency-to-accuracy trade-offs comparable with other more complex MoE, and outperforms non-mixture baselines. This showcases the merits of even a simple single-gate MoE, and motivates further exploration in this area.
Abstract（参考訳）: 専門家の混合(moe)は、非常に大規模なモデルを訓練する手段として人気が高まっているが、推論時に合理的な計算コストを許容している。最近の最先端のアプローチでは、多くの専門家を想定し、すべての専門家を共同で訓練する必要があるため、ルータの崩壊のような不安定なトレーニングにつながることが多いが、本研究では、より実用的なトレーニングを可能にする単純な単ゲートmoeを再考する。私たちの仕事の鍵は (i)初期出力とセンシング正規化スキームの両方として機能するベースモデル分岐 (ii)ルータ崩壊問題のないシンプルで効率的な非同期トレーニングパイプライン、そして最後に (iii)サンプル単位のクラスタリングに基づく初期化。提案モデルでは,他の複雑なMoEに匹敵する効率と精度のトレードオフが得られ,非混合ベースラインよりも優れていることを示す。これは単純な単一ゲートMOEの利点を示し、この地域のさらなる探検を動機付けている。

関連論文リスト

Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。また,Mixture of Experts(MoEs)を組み込むことで,モダリティ固有の重みを学習し,性能を大幅に向上できることを示す。
論文参考訳（メタデータ） (2025-04-10T17:57:28Z)
A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文参考訳（メタデータ） (2024-05-26T17:52:58Z)
SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文参考訳（メタデータ） (2024-04-07T22:13:43Z)
Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts [4.629608387540524]
ScMoEは、重複する並列化戦略と統合された新しいショートカット接続型MoEアーキテクチャである。一般的なトップ2のMoEベースラインと比較して、ScMoEはトレーニングで1.49倍、推論で1.82倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-04-07T17:17:23Z)
Exploiting Inter-Layer Expert Affinity for Accelerating Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文参考訳（メタデータ） (2024-01-16T14:16:47Z)
Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文参考訳（メタデータ） (2023-11-16T10:42:58Z)
Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。 MoEはクラウドやモバイル環境にデプロイするのは難しい。本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文参考訳（メタデータ） (2022-06-01T07:09:01Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
EBJR: Energy-Based Joint Reasoning for Adaptive Inference [10.447353952054492]
最先端のディープラーニングモデルは、さまざまなベンチマークで大きなパフォーマンスレベルを達成した。一方、軽量アーキテクチャは適度な精度を実現しますが、より望ましいレイテンシを実現しています。本稿では,大規模高精度モデルと小型高速モデルとを併用する新しい手法を提案する。
論文参考訳（メタデータ） (2021-10-20T02:33:31Z)
Pool of Experts: Realtime Querying Specialized Knowledge in Massive Neural Networks [0.20305676256390928]
本稿では,Pool of Experts(PoE)と呼ばれるフレームワークを提案する。リアルタイムのモデルクエリサービスのために、PoEはまずエキスパートと呼ばれるプリミティブなコンポーネントのプールを、十分に訓練された十分に汎用的なネットワークから抽出する。 PoEは、かなり正確でコンパクトなモデルをリアルタイムに構築できますが、同じレベルの精度を達成するには、他のトレーニングメソッドに対して、クエリ毎に数分かかります。
論文参考訳（メタデータ） (2021-07-03T06:31:54Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。