論文の概要: Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers
- arxiv url: http://arxiv.org/abs/2601.04890v1
- Date: Thu, 08 Jan 2026 12:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.204144
- Title: Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers
- Title(参考訳): 学習可能な乗算器:言語モデル行列層のスケールを解放する
- Authors: Maksim Velikanov, Ilyas Chahed, Jingwei Zuo, Dhia Eddine Rhaiem, Younes Belkada, Hakim Hacid,
- Abstract要約: 学習可能な乗算器を導入し,行列層に重み減衰を適用するための最適尺度を学習する。
この手法は muP 乗算器の学習可能で表現性の高い一般化とみなすことができる。
十分に調整された muP ベースラインを上回り、チューニングの計算オーバーヘッドを減らし、前方通過対称性や学習した乗算器の幅スケーリングといった実用的な質問を表面化する。
- 参考スコア(独自算出の注目度): 11.445970271488095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applying weight decay (WD) to matrix layers is standard practice in large-language-model pretraining. Prior work suggests that stochastic gradient noise induces a Brownian-like expansion of the weight matrices W, whose growth is counteracted by WD, leading to a WD-noise equilibrium with a certain weight norm ||W||. In this work, we view the equilibrium norm as a harmful artifact of the training procedure, and address it by introducing learnable multipliers to learn the optimal scale. First, we attach a learnable scalar multiplier to W and confirm that the WD-noise equilibrium norm is suboptimal: the learned scale adapts to data and improves performance. We then argue that individual row and column norms are similarly constrained, and free their scale by introducing learnable per-row and per-column multipliers. Our method can be viewed as a learnable, more expressive generalization of muP multipliers. It outperforms a well-tuned muP baseline, reduces the computational overhead of multiplier tuning, and surfaces practical questions such as forward-pass symmetries and the width-scaling of the learned multipliers. Finally, we validate learnable multipliers with both Adam and Muon optimizers, where it shows improvement in downstream evaluations matching the improvement of the switching from Adam to Muon.
- Abstract(参考訳): 行列層に重量減衰(WD)を適用することは、大規模言語モデル事前学習の標準的な実践である。
以前の研究は、確率勾配ノイズは、WDに反作用する重量行列 W のブラウン的な膨張を誘導し、ある重みノルム ||W|| と WD-ノイズ平衡をもたらすことを示唆している。
本研究では,均衡規範をトレーニング手順の有害なアーティファクトとみなし,学習可能な乗算器を導入して,最適な尺度を学習する。
まず、学習可能なスカラー乗算器をWに取り付け、WD-ノイズ平衡ノルムが最適以下であることを確認する。
次に、各行と列のノルムも同様に制約され、学習可能な1行当たりおよびカラムごとの乗算器を導入することで、そのスケールを解放する。
この手法は muP 乗算器の学習可能で表現性の高い一般化とみなすことができる。
十分に調整された muP ベースラインを上回り、乗算器チューニングの計算オーバーヘッドを減らし、前方通過対称性や学習した乗算器の幅スケーリングといった実用的な問題を表面化する。
最後に、学習可能な乗算器をAdamとMuonの最適化器で検証し、AdamからMuonへの切り替えの改善と一致する下流評価の改善を示す。
関連論文リスト
- REG: A Regularization Optimizer for Robust Training Dynamics [24.850151895583494]
RACS(Row-and-Column-Scaling)オペレータは、更新ステップをより劇的な方法で正規化することにより、既存のトレーニングダイナミクスの実装が簡単になり、互換性が向上する。
我々は,我々のREGがAdamWよりも優れた性能と安定性を達成できることを実証すると同時に,AdamWトレーニングパラダイムとの整合性も維持する。
論文 参考訳(メタデータ) (2025-10-04T06:05:57Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。