論文の概要: Routers in Vision Mixture of Experts: An Empirical Study
- arxiv url: http://arxiv.org/abs/2401.15969v1
- Date: Mon, 29 Jan 2024 08:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 15:26:29.772678
- Title: Routers in Vision Mixture of Experts: An Empirical Study
- Title(参考訳): 専門家の視覚混合におけるルータ : 実証的研究
- Authors: Tianlin Liu, Mathieu Blondel, Carlos Riquelme, Joan Puigcerver
- Abstract要約: Mixture-of-Experts (MoE)モデルは、計算コストを大幅に増加させることなく、モデル容量をスケールアップする有望な方法である。
MoEsの主要なコンポーネントはルータであり、どのパラメータ(専門家)プロセスのサブセットが埋め込み(トークン)を特徴付けるかを決定する。
- 参考スコア(独自算出の注目度): 28.96804353500404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models are a promising way to scale up model
capacity without significantly increasing computational cost. A key component
of MoEs is the router, which decides which subset of parameters (experts)
process which feature embeddings (tokens). In this paper, we present a
comprehensive study of routers in MoEs for computer vision tasks. We introduce
a unified MoE formulation that subsumes different MoEs with two parametric
routing tensors. This formulation covers both sparse MoE, which uses a binary
or hard assignment between experts and tokens, and soft MoE, which uses a soft
assignment between experts and weighted combinations of tokens. Routers for
sparse MoEs can be further grouped into two variants: Token Choice, which
matches experts to each token, and Expert Choice, which matches tokens to each
expert. We conduct head-to-head experiments with 6 different routers, including
existing routers from prior work and new ones we introduce. We show that (i)
many routers originally developed for language modeling can be adapted to
perform strongly in vision tasks, (ii) in sparse MoE, Expert Choice routers
generally outperform Token Choice routers, and (iii) soft MoEs generally
outperform sparse MoEs with a fixed compute budget. These results provide new
insights regarding the crucial role of routers in vision MoE models.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、計算コストを大幅に増加させることなく、モデル容量をスケールアップする有望な方法である。
MoEsの重要なコンポーネントはルータであり、組み込み(トークン)を特徴とするパラメータ(専門家)プロセスのサブセットを決定する。
本稿では,コンピュータビジョンタスクのためのMoEにおけるルータの総合的研究について述べる。
2つのパラメトリックルーティングテンソルを持つ異なるMoEを仮定する統一MoE式を導入する。
この定式化は、専門家とトークン間のバイナリまたはハードな割り当てを使用するスパースMoEと、専門家間のソフトな割り当てとトークンの重み付けの組み合わせを使用するソフトMoEの両方をカバーする。
スパースモエのためのルータはさらに2つの変種にグループ化することができる: 各トークンに専門家をマッチするトークン選択と、各専門家にマッチするトークン選択である。
我々は,既存のルータや導入した新しいルータを含む,6つの異なるルータで直接実験を行う。
私たちはそれを示します
(i)元々言語モデリングのために開発された多くのルータは、視覚タスクに強く適応することができる。
(ii)sparse moeでは、専門家選択ルータは一般的にトークン選択ルータよりも優れており、
(iii)ソフトmoeは一般に、一定計算予算でスパースmoeを上回っている。
これらの結果は、vision moeモデルにおけるルータの重要な役割に関する新たな洞察を与える。
関連論文リスト
- Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture
of Adapters [12.421601877508223]
最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。
本稿では,音響スペクトル変換器のパラメータ効率の高い微調整におけるMoEの使用を,下流の音声や音声の処理に用いていることを示す。
アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
論文 参考訳(メタデータ) (2024-02-01T18:16:04Z) - Robust Mixture-of-Expert Training for Convolutional Neural Networks [141.3531209949845]
スパースゲート型Mixture of Expert (MoE) は高精度で超効率的なモデル推論を実現するための大きな可能性を実証している。
本稿では、AdvMoEと呼ばれるMoEのための新しいルータ-エキスパート交互学習フレームワークを提案する。
その結果,AdvMoEは従来の高密度CNNに比べて1%の対向ロバスト性向上を実現し,親和性に富むMoEの有効性を享受できることがわかった。
論文 参考訳(メタデータ) (2023-08-19T20:58:21Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - Mixture of Attention Heads: Selecting Attention Heads Per Token [40.04159325505842]
Mixture of Attention Heads (MoA)は、マルチヘッドアテンションとMoEメカニズムを組み合わせた新しいアーキテクチャである。
MoAは、標準的なマルチヘッドアテンション層よりも強力なパフォーマンスを実現している。
MoAはまた、ヘッドのユーティリティを自動的に区別し、モデルの解釈可能性について議論するための新しい視点を提供する。
論文 参考訳(メタデータ) (2022-10-11T04:54:05Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z) - SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture
of Experts [29.582683923988203]
Mixture of Experts (MoE)ベースのTransformerは多くの領域で有望な結果を示している。
本研究では,音声認識のためのモデルであるSpeechMoEについて検討する。
新しいルータアーキテクチャは、共有埋め込みネットワークからの情報を同時に利用できるSpeechMoEで使用されている。
論文 参考訳(メタデータ) (2021-05-07T02:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。