Fugu-MT 論文翻訳(概要): Exploring Sparse Expert Models and Beyond

論文の概要: Exploring Sparse Expert Models and Beyond

arxiv url: http://arxiv.org/abs/2105.15082v1
Date: Mon, 31 May 2021 16:12:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-01 20:08:15.961677
Title: Exploring Sparse Expert Models and Beyond
Title（参考訳）: スパースなエキスパートモデルとそれ以上を探求する
Authors: An Yang, Junyang Lin, Rui Men, Chang Zhou, Le Jiang, Xianyan Jia, Ang Wang, Jie Zhang, Jiamang Wang, Yong Li, Di Zhang, Wei Lin, Lin Qu, Jingren Zhou, Hongxia Yang
Abstract要約: Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
参考スコア（独自算出の注目度）: 51.90860155810848
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mixture-of-Experts (MoE) models can achieve promising results with outrageous large amount of parameters but constant computation cost, and thus it has become a trend in model scaling. Still it is a mystery how MoE layers bring quality gains by leveraging the parameters with sparse activation. In this work, we investigate several key factors in sparse expert models. We observe that load imbalance may not be a significant problem affecting model quality, contrary to the perspectives of recent studies, while the number of sparsely activated experts $k$ and expert capacity $C$ in top-$k$ routing can significantly make a difference in this context. Furthermore, we take a step forward to propose a simple method called expert prototyping that splits experts into different prototypes and applies $k$ top-$1$ routing. This strategy improves the model quality but maintains constant computational costs, and our further exploration on extremely large-scale models reflects that it is more effective in training larger models. We push the model scale to over $1$ trillion parameters and implement it on solely $480$ NVIDIA V100-32GB GPUs, in comparison with the recent SOTA Switch Transformer on $2048$ TPUs. The proposed giant model achieves substantial speedup in convergence over the same-size baseline.
Abstract（参考訳）: Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つ有望な結果が得られるが、計算コストは一定であり、モデルスケーリングのトレンドとなっている。それでも、MoE層がパラメータをスパースアクティベーションで活用することで、どのように品質向上をもたらすのかは謎である。本研究では,スパースエキスパートモデルにおけるいくつかの要因について検討する。負荷の不均衡は、最近の研究の視点とは対照的に、モデル品質に重大な問題ではない可能性があるが、sparsely activated experts $k$とexpert capacity $c$トップ$k$ routingは、この文脈で大きな違いをもたらす可能性がある。さらに私たちは、エキスパートプロトタイピングと呼ばれる、専門家を異なるプロトタイプに分割し、トップクラスのルーティングに$k$を適用するシンプルな方法を提案します。この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。私たちはモデルスケールを1兆ドル以上のパラメータに押し上げ、NVIDIA V100-32GBのGPUのみに実装します。提案する巨大モデルは,同規模のベースライン上での収束の大幅な高速化を実現する。

関連論文リスト

Towards a Comprehensive Scaling Law of Mixture-of-Experts [54.117786590884776]
本論文では,すべての重要な要因を考慮に入れた総合的かつ正確なMoEスケーリング法を提案する。我々の結果は、$G$と$S$の最適設定が、モデルアーキテクチャとデータサイズの両方に依存しないことを示しています。提案したMoEスケーリング法則は,将来のMoEモデル設計およびトレーニングを促進するための,正確かつ洞察に富んだガイダンスとして機能する可能性がある。
論文参考訳（メタデータ） (2025-09-28T06:35:34Z)
$μ$-Parametrization for Mixture of Experts [8.950722808523981]
非常に大きなモデルにおいて、Mixture-of-Experts (MoE) が主要なアーキテクチャとして登場している。 $mu$Transferはモデルスケール間で最適なハイパーパラメータをシームレスに転送することを可能にする。実験により、最適な学習速度がモデルサイズ間で確実に伝達されることが示されている。
論文参考訳（メタデータ） (2025-08-13T12:31:27Z)
Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文参考訳（メタデータ） (2025-05-27T14:10:46Z)
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文参考訳（メタデータ） (2024-10-11T15:10:40Z)
What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。本研究は,大規模モデルマージの有用性を体系的に評価する。
論文参考訳（メタデータ） (2024-10-04T17:17:19Z)
Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文参考訳（メタデータ） (2024-06-15T14:44:43Z)
Large Language Model Pruning [0.0]
LLMに特化したモデルプルーニング手法を提案する。提案手法は深層学習モデルの説明可能性を強調する。また、大規模モデルにおけるプルーニングと小規模モデルにおけるプルーニングの違いについても検討する。
論文参考訳（メタデータ） (2024-05-24T18:22:15Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
An Empirical Study of $μ$P Learning Rate Transfer [0.0]
実際に,$mu$-Transfer法によってほぼ最適な学習率が得られることを示す。明らかな約束にもかかわらず、$mu$P メソッドはまだ広く採用されていない。
論文参考訳（メタデータ） (2024-04-08T17:59:44Z)
PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文参考訳（メタデータ） (2023-12-27T11:49:24Z)
Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか? 彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文参考訳（メタデータ） (2023-06-15T06:45:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。