論文の概要: Prediction Is All MoE Needs: Expert Load Distribution Goes from Fluctuating to Stabilizing
- arxiv url: http://arxiv.org/abs/2404.16914v1
- Date: Thu, 25 Apr 2024 15:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 14:54:11.626601
- Title: Prediction Is All MoE Needs: Expert Load Distribution Goes from Fluctuating to Stabilizing
- Title(参考訳): 予測はすべてMoEが必要:専門家の負荷分散は変動から安定化へ
- Authors: Peizhuang Cong, Aomufei Yuan, Shimao Chen, Yuxuan Tian, Bowen Ye, Tong Yang,
- Abstract要約: MoEは、モデルの計算複雑性をパラメータの増加とともに線形にスケールしないようにすることで、大型モデルの開発を促進する。
この作業は、専門家配置のための貴重なガイダンスや、MoEモデルのトレーニングのためのリソース割り当てを提供することができます。
- 参考スコア(独自算出の注目度): 3.9094872570262456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MoE facilitates the development of large models by making the computational complexity of the model no longer scale linearly with increasing parameters. The learning sparse gating network selects a set of experts for each token to be processed; however, this may lead to differences in the number of tokens processed by each expert over several successive iterations, i.e., the expert load fluctuations, which reduces computational parallelization and resource utilization. To this end, we traced and analyzed loads of each expert in the training iterations for several large language models in this work, and defined the transient state with "obvious load fluctuation" and the stable state with "temporal locality". Moreover, given the characteristics of these two states and the computational overhead, we deployed three classical prediction algorithms that achieve accurate expert load prediction results. For the GPT3 350M model, the average error rates for predicting the expert load proportion over the next 1,000 and 2,000 steps are approximately 1.3% and 1.8%, respectively. This work can provide valuable guidance for expert placement or resource allocation for MoE model training. Based on this work, we will propose an expert placement scheme for transient and stable states in our coming work.
- Abstract(参考訳): MoEは、モデルの計算複雑性をパラメータの増加とともに線形にスケールしないようにすることで、大型モデルの開発を促進する。
学習スパースゲーティングネットワークは、処理すべきトークンごとに専門家のセットを選択するが、これは、専門家が処理するトークンの数、すなわち、計算の並列化とリソース利用を減らす専門家負荷変動の違いにつながる可能性がある。
この目的のために,本研究では,複数の大規模言語モデルのトレーニングイテレーションにおいて,各専門家の負荷をトレースし,解析し,過渡的状態を「明らかな負荷変動」,安定状態を「時間的局所性」で定義した。
さらに, この2つの状態の特徴と計算オーバーヘッドから, 精度の高い負荷予測を行うための古典的予測アルゴリズムを3つ展開した。
GPT3 350Mモデルでは、次の1000ステップと2,000ステップで専門家の負荷率を予測する平均誤差率は、それぞれ1.3%と1.8%である。
この作業は、専門家配置のための貴重なガイダンスや、MoEモデルのトレーニングのためのリソース割り当てを提供することができます。
本研究に基づき,本研究における過渡的かつ安定的な状態に対する専門家配置方式を提案する。
関連論文リスト
- Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。
モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。
私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文 参考訳(メタデータ) (2024-10-17T17:51:40Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - AMEND: A Mixture of Experts Framework for Long-tailed Trajectory Prediction [6.724750970258851]
軌道予測のためのモジュラーモデル非依存フレームワークを提案する。
各専門家は、データの特定の部分に関して、特別なスキルで訓練される。
予測のために,相対的信頼スコアを生成することで,最高の専門家を選択するルータネットワークを利用する。
論文 参考訳(メタデータ) (2024-02-13T02:43:41Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - Frugal day-ahead forecasting of multiple local electricity loads by
aggregating adaptive models [0.0]
フランスにおける配電網の変電所の日頭電力負荷予測に着目する。
そこで我々は,パラメータの数を削減し,伝達学習を実現するフラジカル変種を開発した。
私たちは、運用アプリケーションにとって重要なモデルの解釈可能性を強調します。
論文 参考訳(メタデータ) (2023-02-16T10:17:19Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Functional Ensemble Distillation [18.34081591772928]
本研究では,効率的なモデルを用いて,アンサンブルの予測を最もよく蒸留する方法を検討する。
混合増量方式による簡易増量方式による蒸留モデルの学習により, 性能が著しく向上することが判明した。
論文 参考訳(メタデータ) (2022-06-05T14:07:17Z) - Bias-Variance Tradeoffs in Single-Sample Binary Gradient Estimators [100.58924375509659]
ストレートスルー (ST) 推定器はその単純さと効率性から人気を得た。
計算の複雑さを低く保ちながら、STよりも改善するいくつかの手法が提案された。
我々は、トレードオフを理解し、元来主張された特性を検証するために、これらの手法のバイアスとばらつきの理論解析を行う。
論文 参考訳(メタデータ) (2021-10-07T15:16:07Z) - Healing Products of Gaussian Processes [21.892542043785845]
現地の専門家の予測をWassersteinバリセンタの計算により組み合わせた,新たなエキスパートモデルを提案する。
特に,wasserstein barycenterを計算し,現地の専門家の予測を組み合わせる新しい経験則モデルを提案する。
論文 参考訳(メタデータ) (2021-02-14T08:53:43Z) - A framework for probabilistic weather forecast post-processing across
models and lead times using machine learning [3.1542695050861544]
我々はNWPモデルと意思決定支援の「理想的な」予測とのギャップを埋める方法について述べる。
本研究では,各数値モデルの誤差プロファイルの学習にQuantile Regression Forestsを使用し,これを経験から得られた確率分布を予測に適用する。
第2に、これらの確率予測を量子平均化(quantile averaging)を用いて組み合わせ、第3に、集合量子化の間で補間して完全な予測分布を生成する。
論文 参考訳(メタデータ) (2020-05-06T16:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。