Fugu-MT 論文翻訳(概要): Extending $μ$P: Spectral Conditions for Feature Learning Across Optimizers

論文の概要: Extending $μ$P: Spectral Conditions for Feature Learning Across Optimizers

arxiv url: http://arxiv.org/abs/2602.20937v1
Date: Tue, 24 Feb 2026 14:17:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.782673
Title: Extending $μ$P: Spectral Conditions for Feature Learning Across Optimizers
Title（参考訳）: μ$Pの拡張: 最適化器間の特徴学習のためのスペクトル条件
Authors: Akshita Gupta, Marieme Ngom, Sam Foreman, Venkatram Vishwanath,
Abstract要約: 本稿では,AdamW, AD, LAMB, Sophia, Shampoo, Muon など,より広範な派生のクラスに対して$P を導出する新しいフレームワークを提案する。我々は、複数のベンチマークモデルに$Psを実装し、モデル幅の増大にまたがるゼロショット学習率の伝達を示す。
参考スコア（独自算出の注目度）: 3.5708391029226885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Several variations of adaptive first-order and second-order optimization methods have been proposed to accelerate and scale the training of large language models. The performance of these optimization routines is highly sensitive to the choice of hyperparameters (HPs), which are computationally expensive to tune for large-scale models. Maximal update parameterization $(μ$P$)$ is a set of scaling rules which aims to make the optimal HPs independent of the model size, thereby allowing the HPs tuned on a smaller (computationally cheaper) model to be transferred to train a larger, target model. Despite promising results for SGD and Adam, deriving $μ$P for other optimizers is challenging because the underlying tensor programming approach is difficult to grasp. Building on recent work that introduced spectral conditions as an alternative to tensor programs, we propose a novel framework to derive $μ$P for a broader class of optimizers, including AdamW, ADOPT, LAMB, Sophia, Shampoo and Muon. We implement our $μ$P derivations on multiple benchmark models and demonstrate zero-shot learning rate transfer across increasing model width for the above optimizers. Further, we provide empirical insights into depth-scaling parameterization for these optimizers.
Abstract（参考訳）: 大規模言語モデルの学習を加速し、拡張するために、適応的な一階法と二階法の様々なバリエーションが提案されている。これらの最適化ルーチンの性能は、大規模モデルのチューニングに計算コストがかかるハイパーパラメータ(HP)の選択に非常に敏感である。最大更新パラメータ化$(μ$P$)$は、最適なHPをモデルサイズとは無関係にすることを目的としたスケーリングルールのセットである。 SGDとAdamの有望な結果にもかかわらず、基礎となるテンソルプログラミングアプローチを理解するのが難しいため、他のオプティマイザに対する$μ$Pの導出は困難である。テンソルプログラムの代替としてスペクトル条件を導入した最近の研究に基づいて、AdamW, ADOPT, LAMB, Sophia, Shampoo, Muon など、より広範なオプティマイザのクラスに対して$μ$Pを導出する新しいフレームワークを提案する。複数のベンチマークモデルに$μ$Pの導出を実装し、上記のオプティマイザのモデル幅の増大にまたがるゼロショット学習率の伝達を示す。さらに,これらのオプティマイザに対して,深度スケーリングパラメータ化に関する経験的知見を提供する。

関連論文リスト

High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。 textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文参考訳（メタデータ） (2026-01-12T13:06:17Z)
Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales [55.91454326946738]
学習速度と減量率の最適化は,幅広い言語に対して,モデルの幅と深さでどのようにスケールするかを検討する。我々は、$Pによる学習率のスケーリングは転送を改善するが、それでもかなりの有限幅偏差に悩まされる可能性があることを見出した。計算-最適スケーリングでは、独立したウェイト崩壊が1/mathrmwidth$で言語間でほぼ最適であることが分かる。
論文参考訳（メタデータ） (2025-12-05T11:03:41Z)
POME: Post Optimization Model Edit via Muon-style Projection [74.73326657229347]
POME(Post-Optimization Model Edit)は、微調整された大規模言語モデルの性能を向上させる。デルタW$のミューオン式のプロジェクションを使い、微調整された重量と事前訓練された重量の違いを区別する。単純な後処理ステップとして、POMEはトレーニングパイプラインから完全に分離される。
論文参考訳（メタデータ） (2025-10-08T04:20:11Z)
Building Coding Agents via Entropy-Enhanced Multi-Turn Preference Optimization [13.271737599933147]
本稿では,エントロピー強化フレームワークであるEntroPOを紹介し,既存の優先最適化アルゴリズムをマルチターンツール支援設定に適用する。 EntroPOは、さまざまな家族やサイズのモデル群を微調整することで検証する。 swebenchのリーダーボードでは、オープンウェイトモデルの間で、新しい最先端の結果が確立される。
論文参考訳（メタデータ） (2025-09-15T20:36:19Z)
Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
我々は100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない経験的調査訓練を実施している。ステップ法則(ステップ法)と呼ばれる,LLM事前学習におけるハイパーパラメータ最適化のための普遍的スケーリング法則を確立する。我々の推定オプティマは, 排他的探索によって得られた世界最高の性能から, テストセットの0.094%しか逸脱しない。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
$f$-PO: Generalizing Preference Optimization with $f$-divergence Minimization [54.94545757220999]
$f$-POは、既存のアプローチを一般化し拡張する新しいフレームワークである。ベンチマークデータセットを用いて最先端言語モデルの実験を行う。
論文参考訳（メタデータ） (2024-10-29T02:11:45Z)
u-$μ$P: The Unit-Scaled Maximal Update Parametrization [4.275373946090221]
我々は、u-mu$Pという新しいスキームを提示し、ユニットスケーリングと組み合わせることで、$mu$Pを改善する。 2つのテクニックには自然な親和性がある。$mu$Pはアクティベーションのスケールがモデルサイズに依存しないことを保証するとともに、ユニットスケーリングはアクティベーション、ウェイト、勾配が1つのスケールでトレーニングを開始することを保証します。
論文参考訳（メタデータ） (2024-07-24T17:58:42Z)
Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis [0.7366405857677226]
我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-11-20T04:34:19Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。