論文の概要: An Empirical Study of $μ$P Learning Rate Transfer
- arxiv url: http://arxiv.org/abs/2404.05728v6
- Date: Thu, 13 Feb 2025 23:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:45:22.450794
- Title: An Empirical Study of $μ$P Learning Rate Transfer
- Title(参考訳): $μ$Pの学習速度伝達に関する実証的研究
- Authors: Lucas Lingle,
- Abstract要約: 実際に,$mu$-Transfer法によってほぼ最適な学習率が得られることを示す。
明らかな約束にもかかわらず、$mu$P メソッドはまだ広く採用されていない。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Deep learning models have become a cornerstone of modern AI research, yet their initializations and learning rates may at times be set in an opaque or ad-hoc fashion due to the high cost of hyperparameter sweeps. The $\mu$-Parameterization ($\mu$P) offers a possible solution to this challenge, yielding scaling rules for model initialization and learning rates while reportedly enabling zero-shot hyperparameter transfer from small to large models. Despite its evident promise, the $\mu$P method is not yet widely adopted, perhaps due to higher implementation complexity, many variations, or complex theoretical background. This work considers $\mu$P empirically, focusing on the popular transformer architecture, and aims to answer a simple question: does $\mu$-Transfer yield near-optimal learning rates in practice? Studying over a dozen ablations with up to 1.2B parameters and 33B tokens and a large-scale experiment with up to 10B parameters and 190B tokens, we observe a positive answer for most settings, and discuss improvements otherwise.
- Abstract(参考訳): ディープラーニングモデルは、現代のAI研究の基盤となっているが、その初期化と学習速度は、高パラメータースイープのコストが高いため、時には不透明またはアドホックな方法で設定されることがある。
この$\mu$-Parameterization($\mu$P)は、モデルの初期化と学習率のスケーリングルールを提供するとともに、小さなモデルから大きなモデルへのゼロショットハイパーパラメータ転送を可能にする。
明らかな約束にもかかわらず、$\mu$P 法はまだ広く採用されていない。
This work considers $\mu$P empirically, focus on the popular transformer architecture, and aimed to answer a simple question: $\mu$-Transfer yield near-timal learning rate in practice?
最大1.2Bパラメータと33Bトークンを持つ10以上のアブレーションと、最大10Bパラメータと190Bトークンを持つ大規模な実験を行い、ほとんどの設定に対する肯定的な回答を観察し、それ以外は改善について議論する。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Parameter-Efficient Transfer Learning for Music Foundation Models [51.61531917413708]
音楽基礎モデルのパラメータ効率変換学習(PETL)について検討する。
PETL法は、音楽の自動タグ付けにおいて、探索と微調整の両方に優れる。
PETL法は、トレーニングコストを大幅に削減し、微調整と同様の結果を得る。
論文 参考訳(メタデータ) (2024-11-28T20:50:40Z) - Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge [0.704590071265998]
オンラインQ-ラーニング手法のサンプル複雑性について,動的知識が利用可能であったり,効率的に学習できたりした場合に検討する。
我々は,$f$の完全知識の下で,$tildemathcalO(textPoly(H)sqrtSAT)$ regretを達成する楽観的なQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-19T19:53:58Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - A Model-free Learning Algorithm for Infinite-horizon Average-reward MDPs
with Near-optimal Regret [44.374427255708135]
無限水平平均逆マルコフ決定過程(MDP)のモデルフリーアルゴリズムである探索強化Q-ラーニング(EE-QL)を提案する。
EE-QLは、最適平均報酬のオンライン集中近似が利用可能であると仮定する。
これは、エルゴード的な仮定なしに$O(sqrt T)$後悔を達成する最初のモデル自由学習アルゴリズムであり、対数的因子を除いて、下位境界の$T$と一致する。
論文 参考訳(メタデータ) (2020-06-08T05:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。