論文の概要: AdaMoE: Token-Adaptive Routing with Null Experts for Mixture-of-Experts Language Models
- arxiv url: http://arxiv.org/abs/2406.13233v1
- Date: Wed, 19 Jun 2024 05:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 23:09:15.510442
- Title: AdaMoE: Token-Adaptive Routing with Null Experts for Mixture-of-Experts Language Models
- Title(参考訳): AdaMoE:Mixture-of-Experts言語モデルのためのNull専門家によるToken-Adaptive Routing
- Authors: Zihao Zeng, Yibo Miao, Hongcheng Gao, Hao Zhang, Zhijie Deng,
- Abstract要約: 我々はAdaMoEを導入し、MoEのトークン適応ルーティングを実現する。
AdaMoEは各トークンに一定数のnullエキスパートを占有させません。
パフォーマンスを向上しながら、平均的な専門家負荷(FLOP)を削減できます。
- 参考スコア(独自算出の注目度): 14.646419975663367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture of experts (MoE) has become the standard for constructing production-level large language models (LLMs) due to its promise to boost model capacity without causing significant overheads. Nevertheless, existing MoE methods usually enforce a constant top-k routing for all tokens, which is arguably restrictive because various tokens (e.g., "<EOS>" vs. "apple") may require various numbers of experts for feature abstraction. Lifting such a constraint can help make the most of limited resources and unleash the potential of the model for downstream tasks. In this sense, we introduce AdaMoE to realize token-adaptive routing for MoE, where different tokens are permitted to select a various number of experts. AdaMoE makes minimal modifications to the vanilla MoE with top-k routing -- it simply introduces a fixed number of null experts, which do not consume any FLOPs, to the expert set and increases the value of k. AdaMoE does not force each token to occupy a fixed number of null experts but ensures the average usage of the null experts with a load-balancing loss, leading to an adaptive number of null/true experts used by each token. AdaMoE exhibits a strong resemblance to MoEs with expert choice routing while allowing for trivial auto-regressive modeling. AdaMoE is easy to implement and can be effectively applied to pre-trained (MoE-)LLMs. Extensive studies show that AdaMoE can reduce average expert load (FLOPs) while achieving superior performance. For example, on the ARC-C dataset, applying our method to fine-tuning Mixtral-8x7B can reduce FLOPs by 14.5% while increasing accuracy by 1.69%.
- Abstract(参考訳): 運用レベルの大規模言語モデル(LLM)を構築する上では,Mixture of Expert (MoE) が標準となっている。
それにもかかわらず、既存のMoEメソッドは通常、すべてのトークンに対して一定のトップkルーティングを強制するが、これは、様々なトークン(例: "<EOS>" 対 "apple")が機能抽象化のために様々な専門家を必要とするため、明らかに制限的である。
このような制約を緩和することは、限られたリソースを最大限に活用し、下流タスクのためのモデルの可能性を解き放つのに役立ちます。
この意味で、AdaMoEを導入して、さまざまなトークンがさまざまな専門家を選択することができるMoEのトークン適応ルーティングを実現する。
AdaMoEは、トップkルーティングでバニラMoEを最小限に修正する -- 単に、FLOPを消費しない固定数のnull専門家を専門家セットに導入し、kの値を増加させるだけである。
AdaMoEは、各トークンに一定の数のnullエキスパートを占有させるのではなく、ロードバランシング損失を持つnullエキスパートの平均使用量を保証し、各トークンで使用されるnull/trueエキスパートの適応数に繋がる。
AdaMoEは、厳密な自動回帰モデリングを可能にしながら、専門家による選択ルーティングを備えたMoEと非常によく似ている。
AdaMoEは実装が容易で、事前訓練された(MoE-)LLMにも効果的に適用できる。
大規模な研究により、AdaMoEは優れた性能を保ちながら、平均的専門家負荷(FLOP)を低減できることが示された。
例えば、ARC-Cデータセットでは、Mixtral-8x7Bの微調整にこの手法を適用すると、FLOPを14.5%削減でき、精度は1.69%向上する。
関連論文リスト
- Ada-K Routing: Boosting the Efficiency of MoE-based LLMs [6.954735360168147]
トークンごとにアクティベートされた専門家の数を動的に調整する新しいAda-Kルーティング戦略を提案する。
我々の戦略は学習可能で軽量なアロケータモジュールを組み込んでおり、各トークンのコンテキストに応じたカスタマイズされた専門家リソース割り当てを決定する。
論文 参考訳(メタデータ) (2024-10-14T12:50:04Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts [41.83123857437985]
大規模な体制でゼロからMoEを訓練することは違法に高価である。
本稿では,BAM(Branch-Attend-Mix)を提案する。
5億9000万から20億のパラメータのシードモデルに関する実験では、BAMがパープレキシティとダウンストリームのタスクパフォーマンスの両方でベースラインを超えていることが示されている。
論文 参考訳(メタデータ) (2024-08-15T17:19:12Z) - GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory [49.536752342048075]
モデルのスケールアップに有効な方法として,Mixture-of-Experts (MoE) が実証されている。
本稿では,この問題に対処する新しい微調整手法GW-MoEを提案する。
論文 参考訳(メタデータ) (2024-06-18T08:03:51Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient
MoE for Instruction Tuning [7.094820944028638]
我々は,MoEアーキテクチャと軽量専門家を組み合わせることで,極めてパラメータ効率の良いMoEを提案する。
本手法は,従来のタスク知識に依存しないため,目に見えないタスクに一般化する。
本研究は,厳密なパラメータ制約の下でも堅牢な性能を実現する能力を示す。
論文 参考訳(メタデータ) (2023-09-11T13:31:00Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。