論文の概要: Scaling Laws for Fine-Grained Mixture of Experts
- arxiv url: http://arxiv.org/abs/2402.07871v1
- Date: Mon, 12 Feb 2024 18:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:08:34.636215
- Title: Scaling Laws for Fine-Grained Mixture of Experts
- Title(参考訳): 細粒度混合専門家のためのスケーリング則
- Authors: Jakub Krajewski, Jan Ludziejewski, Kamil Adamczewski, Maciej Pi\'oro,
Micha{\l} Krutul, Szymon Antoniak, Kamil Ciebiera, Krystian Kr\'ol, Tomasz
Odrzyg\'o\'zd\'z, Piotr Sankowski, Marek Cygan, Sebastian Jaszczur
- Abstract要約: ミキチャー・オブ・エキスパート(MoE)モデルは、大規模言語モデルの計算コストを削減するための主要なソリューションとして登場した。
本研究では,拡張変数を組み込んだスケーリング特性の解析を行う。
トレーニングトークンの数、モデルサイズ、粒度を考慮して、粒度の細かいMoEのスケーリング法則を確立します。
- 参考スコア(独自算出の注目度): 4.412803924115907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture of Experts (MoE) models have emerged as a primary solution for
reducing the computational cost of Large Language Models. In this work, we
analyze their scaling properties, incorporating an expanded range of variables.
Specifically, we introduce a new hyperparameter, granularity, whose adjustment
enables precise control over the size of the experts. Building on this, we
establish scaling laws for fine-grained MoE, taking into account the number of
training tokens, model size, and granularity. Leveraging these laws, we derive
the optimal training configuration for a given computational budget. Our
findings not only show that MoE models consistently outperform dense
Transformers but also highlight that the efficiency gap between dense and MoE
models widens as we scale up the model size and training budget. Furthermore,
we demonstrate that the common practice of setting the size of experts in MoE
to mirror the feed-forward layer is not optimal at almost any computational
budget.
- Abstract(参考訳): 専門家の混合モデル(moe)は、大規模言語モデルの計算コストを削減するための主要なソリューションとして登場した。
本研究では,拡張変数を組み込んだスケーリング特性の解析を行う。
具体的には,新しいハイパーパラメータである粒度を導入し,その調整によって専門家のサイズを正確に制御する。
これに基づいて,訓練トークン数,モデルサイズ,粒度を考慮して,細粒度moeのスケーリング法則を確立する。
これらの法則を活用し、与えられた計算予算の最適トレーニング構成を導出する。
以上の結果から,MoEモデルが高密度トランスフォーマーを一貫して上回るだけでなく,モデルサイズとトレーニング予算のスケールアップに伴って,高密度モデルと高密度モデルとの効率ギャップが拡大することが明らかとなった。
さらに, フィードフォワード層を反映させるため, 専門家のサイズをmoeで設定する一般的な手法は, ほぼどんな計算予算でも最適ではないことを示す。
関連論文リスト
- Scaling Laws Across Model Architectures: A Comparative Analysis of Dense and MoE Models in Large Language Models [34.79589443380606]
大規模言語モデル(LLM)のスケーリングは、モデルトレーニングとデプロイメントの効率性と効率性にとって重要な研究領域である。
本研究は,Dense Models と MoE Model のスケーリング法則の伝達性と相違について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:21:56Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。
a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文 参考訳(メタデータ) (2024-04-30T12:05:48Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。
パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-02-27T08:18:02Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。