論文の概要: Spectral Condition for $μ$P under Width-Depth Scaling
- arxiv url: http://arxiv.org/abs/2603.00541v1
- Date: Sat, 28 Feb 2026 08:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.251345
- Title: Spectral Condition for $μ$P under Width-Depth Scaling
- Title(参考訳): 幅密度スケーリングにおける$μ$Pのスペクトル条件
- Authors: Chenyu Zheng, Rongzhen Wang, Xinyu Zhang, Chongxuan Li,
- Abstract要約: 広帯域スケーリングにおいて,$$Pの簡易かつ統一的なスペクトルフレームワークを開発する。
提案したスペクトル$$Pは,条件安定な特徴学習を保ち,広帯域スケーリング下でHPの堅牢な転送を可能にすることを示す。
- 参考スコア(独自算出の注目度): 33.05604496779641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative foundation models are increasingly scaled in both width and depth, posing significant challenges for stable feature learning and reliable hyperparameter (HP) transfer across model sizes. While maximal update parameterization ($μ$P) has provided a principled solution to both problems for width scaling, existing extensions to the joint width-depth scaling regime remain fragmented, architecture- and optimizer-specific, and often rely on technically involved theories. In this work, we develop a simple and unified spectral framework for $μ$P under joint width-depth scaling. Considering residual networks of varying block depths, we first introduce a spectral $μ$P condition that precisely characterizes how the norms of weights and their per-step updates should scale with width and depth, unifying previously disparate $μ$P formulations as special cases. Building on this condition, we then derive a general recipe for implementing $μ$P across a broad class of optimizers by mapping the spectral constraints to concrete HP parameterizations. This approach not only recovers existing $μ$P formulations (e.g., for SGD and AdamW) but also naturally extends to a wider range of optimizers. Finally, experiments on GPT-2 style language models demonstrate that the proposed spectral $μ$P condition preserves stable feature learning and enables robust HP transfer under width-depth scaling.
- Abstract(参考訳): 生成基盤モデルは、幅と深さの両方で拡大し、安定した特徴学習とモデルサイズ間の信頼性の高いハイパーパラメータ(HP)転送に重大な課題を提起する。
最大更新パラメータ化(μ$P)は、幅スケーリングの両問題に対する原則的な解決策を提供する一方で、結合幅の深さスケーリング体制への既存の拡張は、断片化され、アーキテクチャに特化しており、しばしば技術的に関係のある理論に依存している。
そこで本研究では,結合幅深度スケーリングによる$μ$Pの簡易かつ統一的なスペクトルフレームワークを開発する。
異なるブロック深さの残差ネットワークを考えると、まずスペクトル$μ$P条件を導入し、特に異なる$μ$Pの定式化を統一して、重みのノルムとその各ステップの更新が幅と深さでどのようにスケールするかを正確に特徴付ける。
この条件に基づいて、スペクトル制約を具体的HPパラメータ化にマッピングすることにより、幅広いオプティマイザのクラスにわたって$μ$Pを実装するための一般的なレシピを導出する。
このアプローチは、既存の$μ$P(例えばSGDやAdamW)の定式化を回復するだけでなく、自然に幅広いオプティマイザにまで拡張する。
最後に, GPT-2スタイルの言語モデルを用いた実験により, 提案したスペクトル$μ$P条件は, 安定な特徴学習を保ち, 広帯域スケーリング下でHPの堅牢な転送を可能にすることを示した。
関連論文リスト
- Extending $μ$P: Spectral Conditions for Feature Learning Across Optimizers [3.5708391029226885]
本稿では,AdamW, AD, LAMB, Sophia, Shampoo, Muon など,より広範な派生のクラスに対して$P を導出する新しいフレームワークを提案する。
我々は、複数のベンチマークモデルに$Psを実装し、モデル幅の増大にまたがるゼロショット学習率の伝達を示す。
論文 参考訳(メタデータ) (2026-02-24T14:17:51Z) - Controlled LLM Training on Spectral Sphere [76.60985966206746]
重み付けと更新の両方に厳密なモジュール単位のスペクトル制約を課す textbfSpectral Sphere アルゴリズム (SSO) を導入する。
我々は,MoEルータロードバランシングの改善,外乱抑制,厳密な制限付きアクティベーションなど,重要な実用的安定性の利点を観察した。
論文 参考訳(メタデータ) (2026-01-13T09:59:47Z) - Neural Nonmyopic Bayesian Optimization in Dynamic Cost Settings [73.44599934855067]
LookaHESは、動的で履歴に依存したコスト環境のために設計された非心筋BOフレームワークである。
LookaHESは、$H$-Entropy Searchのマルチステップ版と、パスワイズサンプリングとニューラルポリシー最適化を組み合わせたものだ。
私たちの革新は、構造化されたドメイン固有のアクションスペースを効果的にナビゲートするために、大きな言語モデルを含むニューラルポリシーの統合です。
論文 参考訳(メタデータ) (2026-01-10T09:49:45Z) - Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales [55.91454326946738]
学習速度と減量率の最適化は,幅広い言語に対して,モデルの幅と深さでどのようにスケールするかを検討する。
我々は、$Pによる学習率のスケーリングは転送を改善するが、それでもかなりの有限幅偏差に悩まされる可能性があることを見出した。
計算-最適スケーリングでは、独立したウェイト崩壊が1/mathrmwidth$で言語間でほぼ最適であることが分かる。
論文 参考訳(メタデータ) (2025-12-05T11:03:41Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - $μ$-Parametrization for Mixture of Experts [8.950722808523981]
非常に大きなモデルにおいて、Mixture-of-Experts (MoE) が主要なアーキテクチャとして登場している。
$mu$Transferはモデルスケール間で最適なハイパーパラメータをシームレスに転送することを可能にする。
実験により、最適な学習速度がモデルサイズ間で確実に伝達されることが示されている。
論文 参考訳(メタデータ) (2025-08-13T12:31:27Z) - Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
我々は100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない経験的調査訓練を実施している。
ステップ法則(ステップ法)と呼ばれる,LLM事前学習におけるハイパーパラメータ最適化のための普遍的スケーリング法則を確立する。
我々の推定オプティマは, 排他的探索によって得られた世界最高の性能から, テストセットの0.094%しか逸脱しない。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z) - Local Loss Optimization in the Infinite Width: Stable Parameterization of Predictive Coding Networks and Target Propagation [8.35644084613785]
局所目標の2つの代表的設計に対して、無限幅極限における最大更新パラメータ化(mu$P)を導入する。
深層線形ネットワークを解析した結果,PCの勾配は1次勾配とガウス・ニュートン様勾配の間に介在していることが判明した。
我々は、特定の標準設定において、無限幅制限のPCは、一階勾配とよりよく似た振る舞いをすることを示した。
論文 参考訳(メタデータ) (2024-11-04T11:38:27Z) - Deep Q-Exponential Processes [2.9293915193120155]
ディープニューラルネットワークによって動機付けられたディープガウス過程(DGP)は、GPの複数の層を積み重ねることで標準GPを一般化する。
Q-指数過程 (Q-EP) はGPへの$L_q$緩和として提案され、より望ましい正規化特性を持つことを示した。
本稿では,Q-EPを深いQ-EPに一般化し,適切な正規化と表現性の向上を両立させる。
論文 参考訳(メタデータ) (2024-10-29T15:21:39Z) - Improved Communication-Privacy Trade-offs in $L_2$ Mean Estimation under Streaming Differential Privacy [47.997934291881414]
既存の平均推定スキームは、通常、$L_infty$幾何に最適化され、ランダムな回転や、$L$幾何に適応するカシンの表現に依存する。
本稿では,スパシフィケーションに固有のランダム性をDPに組み込んだ,スパシフィケーションガウシアン機構の新たなプライバシ会計手法を提案する。
従来の手法とは異なり、我々の会計アルゴリズムは直接$L$幾何で動作し、ガウスの機構に迅速に収束するMSEが得られる。
論文 参考訳(メタデータ) (2024-05-02T03:48:47Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。