論文の概要: $μ$-Parametrization for Mixture of Experts
- arxiv url: http://arxiv.org/abs/2508.09752v2
- Date: Thu, 09 Oct 2025 14:31:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.626021
- Title: $μ$-Parametrization for Mixture of Experts
- Title(参考訳): エキスパートの混合に対する$μ$-Parametrization
- Authors: Jan Małaśnicki, Kamil Ciebiera, Mateusz Boruń, Maciej Pióro, Jan Ludziejewski, Maciej Stefaniak, Michał Krutul, Sebastian Jaszczur, Marek Cygan, Kamil Adamczewski, Jakub Krajewski,
- Abstract要約: 非常に大きなモデルにおいて、Mixture-of-Experts (MoE) が主要なアーキテクチャとして登場している。
$mu$Transferはモデルスケール間で最適なハイパーパラメータをシームレスに転送することを可能にする。
実験により、最適な学習速度がモデルサイズ間で確実に伝達されることが示されている。
- 参考スコア(独自算出の注目度): 8.950722808523981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen a growing interest and adoption of LLMs, with Mixture-of-Experts (MoE) emerging as a leading architecture in extremely large models. Currently, the largest open-source models reach over $1$T parameters. At such scales, hyperparameter tuning becomes prohibitively expensive. Precisely for this reason, the $\mu$Transfer is becoming a key technique. It allows for seamless transfer of optimal hyperparameters across model scales, resulting in a huge reduction in tuning costs. However, existing work has primarily focused on dense LLMs, leaving MoE architectures unexplored. In this work, we derive a $\mu$-Parameterization for MoE, providing theoretical guarantees for feature learning across model widths. Our experiments demonstrate that the optimal learning rate reliably transfers across model sizes, establishing a foundation for efficient hyperparameter tuning in large-scale MoE models.
- Abstract(参考訳): 近年、LLMの関心や採用が高まり、Mixture-of-Experts (MoE) が極めて大規模なモデルにおいて主要なアーキテクチャとして登場している。
現在、最大のオープンソースモデルは1ドル以上のパラメータに到達している。
このようなスケールでは、ハイパーパラメータチューニングは違法に高価になる。
正確には、$\mu$Transferは重要なテクニックになりつつある。
モデルスケールで最適なハイパーパラメータをシームレスに転送することができ、チューニングコストが大幅に削減される。
しかし、既存の研究は主に高密度LLMに焦点を当てており、MoEアーキテクチャは未調査のままである。
本研究では,モデル幅にまたがる特徴学習の理論的保証を提供するMOEのための$\mu$-Parameterizationを導出する。
実験により, モデルサイズ間で最適な学習速度が確実に伝達されることが示され, 大規模MOEモデルにおける効率的なハイパーパラメータチューニングの基礎が確立された。
関連論文リスト
- MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。
我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。
モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging [36.0133566024214]
Upcycling Instruction Tuning (UpIT) は、密度の高い事前学習されたモデルをMoE命令モデルにチューニングするためのデータ効率のよいアプローチである。
MoEモデルの各専門家が期待通りに機能するように、我々は、ルータを事前最適化するために、各専門家が抽出する少数のシードデータを選択する。
論文 参考訳(メタデータ) (2024-10-02T14:48:22Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models [24.915387910764082]
エキスパート特化ファインチューニング(Expert-Specialized Fine-Tuning、ESFT)は、他の専門家やモジュールを凍結しながら、下流のタスクに最も関係のある専門家をチューニングする。
よりきめ細かい専門家によるMoEモデルは、下流タスクに最も関係のある専門家の組み合わせを選択する上でより有利である。
論文 参考訳(メタデータ) (2024-07-02T03:11:13Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。