論文の概要: Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2306.04073v1
- Date: Wed, 7 Jun 2023 00:16:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 16:36:02.250498
- Title: Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks
- Title(参考訳): 畳み込みニューラルネットワークにおけるパッチレベルルーティングの有用性
- Authors: Mohammed Nowaz Rabbani Chowdhury, Shuai Zhang, Meng Wang, Sijia Liu
and Pin-Yu Chen
- Abstract要約: ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
- 参考スコア(独自算出の注目度): 74.68583356645276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In deep learning, mixture-of-experts (MoE) activates one or few experts
(sub-networks) on a per-sample or per-token basis, resulting in significant
computation reduction. The recently proposed \underline{p}atch-level routing in
\underline{MoE} (pMoE) divides each input into $n$ patches (or tokens) and
sends $l$ patches ($l\ll n$) to each expert through prioritized routing. pMoE
has demonstrated great empirical success in reducing training and inference
costs while maintaining test accuracy. However, the theoretical explanation of
pMoE and the general MoE remains elusive. Focusing on a supervised
classification task using a mixture of two-layer convolutional neural networks
(CNNs), we show for the first time that pMoE provably reduces the required
number of training samples to achieve desirable generalization (referred to as
the sample complexity) by a factor in the polynomial order of $n/l$, and
outperforms its single-expert counterpart of the same or even larger capacity.
The advantage results from the discriminative routing property, which is
justified in both theory and practice that pMoE routers can filter
label-irrelevant patches and route similar class-discriminative patches to the
same expert. Our experimental results on MNIST, CIFAR-10, and CelebA support
our theoretical findings on pMoE's generalization and show that pMoE can avoid
learning spurious correlations.
- Abstract(参考訳): ディープラーニングでは、Mixix-of-experts(MoE)は、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化し、計算量を大幅に削減する。
最近提案された \underline{p}atch-level routing in \underline{MoE} (pMoE) では、各入力を$n$のパッチ(またはトークン)に分割し、優先順位付けされたルーティングを通じて各専門家に$l$のパッチ(l\ll n$)を送信する。
pMoEは、試験精度を維持しながら、トレーニングと推論のコストを削減した。
しかし、pMoE と一般 MoE の理論的説明はいまだ解明されていない。
2層畳み込みニューラルネットワーク (CNN) の混合を用いた教師付き分類タスクに着目し, pMoE は多項式次数$n/l$ の係数で望ましい一般化(サンプル複雑性と呼ばれる)を達成するために, 必要なトレーニングサンプル数を確実に削減し, 同一あるいはそれ以上の容量のシングルエキスパートよりも優れていることを示す。
この利点は、pmoeルータがラベル非関連パッチをフィルタリングし、同様のクラス判別パッチを同じ専門家にルーティングできるという理論と実践の両方で正当化されている。
MNIST, CIFAR-10, CelebAによる実験結果から, pMoEの一般化に関する理論的知見が得られた。
関連論文リスト
- Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - On the Convergence of Federated Averaging under Partial Participation for Over-parameterized Neural Networks [13.2844023993979]
フェデレートラーニング(FL)は、ローカルデータを共有せずに複数のクライアントから機械学習モデルを協調的に作成するための分散パラダイムである。
本稿では,FedAvgが世界規模で世界規模で収束していることを示す。
論文 参考訳(メタデータ) (2023-10-09T07:56:56Z) - Langevin Thompson Sampling with Logarithmic Communication: Bandits and
Reinforcement Learning [34.4255062106615]
トンプソンサンプリング(TS)は、使用が容易で、経験的性能に訴えるため、シーケンシャルな意思決定に広く用いられている。
バッチ化された$textitLangevin Thompson Sampling$アルゴリズムを提案する。
アルゴリズムは計算効率が高く,MABでは$mathcalO(log T)$,RLでは$mathcalO(sqrtT)$と同じオーダー最適後悔保証を維持している。
論文 参考訳(メタデータ) (2023-06-15T01:16:29Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z) - Towards Understanding Why Mask-Reconstruction Pretraining Helps in
Downstream Tasks [129.1080795985234]
Mask-Reconstruction Pretraining (MRP)はランダムにマスク入力パッチにアプローチし、オートエンコーダを介してこれらのマスクパッチの画素や意味的特徴を再構築する。
下流タスクでは、事前訓練されたエンコーダの微調整が、スクラッチから訓練された従来の教師付き学習(SL)を著しく上回っている。
論文 参考訳(メタデータ) (2022-06-08T11:49:26Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z) - Permutation Compressors for Provably Faster Distributed Nonconvex
Optimization [68.8204255655161]
本稿では,Gorbunov et al (2021) の MARINA 法が,理論的な通信複雑性の観点から最先端の手法とみなすことができることを示す。
MARINAの理論は、古典的な独立圧縮機設定を超えて、潜在的にエミュレートされた圧縮機の理論を支持するものである。
論文 参考訳(メタデータ) (2021-10-07T09:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。