論文の概要: Balancing Expert Utilization in Mixture-of-Experts Layers Embedded in
CNNs
- arxiv url: http://arxiv.org/abs/2204.10598v1
- Date: Fri, 22 Apr 2022 09:40:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 13:27:53.588566
- Title: Balancing Expert Utilization in Mixture-of-Experts Layers Embedded in
CNNs
- Title(参考訳): CNNに埋め込まれた混成層におけるエキスパート利用のバランシング
- Authors: Svetlana Pavlitskaya, Christian Hubschneider, Lukas Struppek and J.
Marius Z\"ollner
- Abstract要約: この研究は、畳み込みニューラルネットワークに直接埋め込まれたスパースゲートのMixture of Expert層における不均衡な専門家利用の問題に対処する。
ソフト制約とハード制約に基づくアプローチの両方を提示する。ハード制約では、特定の専門家の重みがゼロになることが認められ、ソフト制約は、専門家の貢献と追加の補助的損失のバランスをとる。
- 参考スコア(独自算出の注目度): 3.67656737768159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses the problem of unbalanced expert utilization in
sparsely-gated Mixture of Expert (MoE) layers, embedded directly into
convolutional neural networks. To enable a stable training process, we present
both soft and hard constraint-based approaches. With hard constraints, the
weights of certain experts are allowed to become zero, while soft constraints
balance the contribution of experts with an additional auxiliary loss. As a
result, soft constraints handle expert utilization better and support the
expert specialization process, hard constraints mostly maintain generalized
experts and increase the model performance for many applications. Our findings
demonstrate that even with a single dataset and end-to-end training, experts
can implicitly focus on individual sub-domains of the input space. Experts in
the proposed models with MoE embeddings implicitly focus on distinct domains,
even without suitable predefined datasets. As an example, experts trained for
CIFAR-100 image classification specialize in recognizing different domains such
as sea animals or flowers without previous data clustering. Experiments with
RetinaNet and the COCO dataset further indicate that object detection experts
can also specialize in detecting objects of distinct sizes.
- Abstract(参考訳): この研究は、畳み込みニューラルネットワークに直接埋め込まれた疎開型Mixture of Expert (MoE)層における不均衡な専門家利用の問題に対処する。
安定したトレーニングプロセスを実現するために,ソフトとハードの制約に基づくアプローチを提案する。
厳しい制約により、特定の専門家の重みはゼロになり、ソフトな制約は専門家の貢献と追加の補助損失のバランスをとる。
その結果、ソフトな制約は専門家の利用をより良く扱い、専門家の専門化プロセスをサポートします。
我々の研究結果は、単一のデータセットとエンドツーエンドのトレーニングであっても、専門家は暗黙的に入力空間の個々のサブドメインに集中できることを示している。
moe埋め込みを持つ提案モデルのエキスパートは、適切なデータセットがなくても、暗黙的に異なるドメインに焦点を当てている。
例えば、CIFAR-100画像分類の専門家は、以前のデータクラスタリングなしで海洋動物や花などの異なるドメインを認識することを専門としている。
RetinaNetとCOCOデータセットによる実験は、オブジェクト検出の専門家が、異なるサイズのオブジェクトを検出できることも示している。
関連論文リスト
- Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - On Least Squares Estimation in Softmax Gating Mixture of Experts [85.61224527426624]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - Spatial Mixture-of-Experts [16.71096722340687]
本稿では、入力領域における空間構造を学習し、専門家をきめ細かいレベルでルーティングし、それを利用する空間混合層を提案する。
我々は,多くのタスクにおいてSMoEの強い結果を示し,中距離気象予報と後処理のアンサンブル天気予報の新しい結果を設定した。
論文 参考訳(メタデータ) (2022-11-24T09:31:02Z) - Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。
本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。
都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文 参考訳(メタデータ) (2022-09-26T23:27:51Z) - Towards Understanding Mixture of Experts in Deep Learning [95.27215939891511]
ニューラルネットワーク学習におけるMoE層の性能向上について検討する。
この結果から,基礎となる問題のクラスタ構造と専門家の非線形性は,MoEの成功に欠かせないことが示唆された。
論文 参考訳(メタデータ) (2022-08-04T17:59:10Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - DEMix Layers: Disentangling Domains for Modular Language Modeling [92.57761975953453]
入力テキストのドメイン上で言語モデル(LM)を条件付けることができる新しいドメインエキスパート混合層(DEMix)を導入する。
DEMixレイヤは専門的なフィードフォワードネットワークの集合であり、それぞれがドメインに特化している。
実験によると、DEMixレイヤはテスト時間の複雑度を低減し、トレーニングの効率を向上し、オーバーヘッドの少ない迅速な適応を可能にする。
論文 参考訳(メタデータ) (2021-08-11T05:15:33Z) - Gaussian Experts Selection using Graphical Models [7.530615321587948]
ローカル近似は、元のデータセットをサブセットに分割し、各サブセットでローカル専門家を訓練することで、時間の複雑さを低減する。
我々は、専門家間の条件依存を符号化するスパース精度行列を用いて、非方向性のグラフィカルモデルに関する文献からのテクニックを活用し、最も重要な専門家を選択する。
論文 参考訳(メタデータ) (2021-02-02T14:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。