論文の概要: Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers
- arxiv url: http://arxiv.org/abs/2601.04890v1
- Date: Thu, 08 Jan 2026 12:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.204144
- Title: Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers
- Title(参考訳): 学習可能な乗算器:言語モデル行列層のスケールを解放する
- Authors: Maksim Velikanov, Ilyas Chahed, Jingwei Zuo, Dhia Eddine Rhaiem, Younes Belkada, Hakim Hacid,
- Abstract要約: 学習可能な乗算器を導入し,行列層に重み減衰を適用するための最適尺度を学習する。
この手法は muP 乗算器の学習可能で表現性の高い一般化とみなすことができる。
十分に調整された muP ベースラインを上回り、チューニングの計算オーバーヘッドを減らし、前方通過対称性や学習した乗算器の幅スケーリングといった実用的な質問を表面化する。
- 参考スコア(独自算出の注目度): 11.445970271488095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applying weight decay (WD) to matrix layers is standard practice in large-language-model pretraining. Prior work suggests that stochastic gradient noise induces a Brownian-like expansion of the weight matrices W, whose growth is counteracted by WD, leading to a WD-noise equilibrium with a certain weight norm ||W||. In this work, we view the equilibrium norm as a harmful artifact of the training procedure, and address it by introducing learnable multipliers to learn the optimal scale. First, we attach a learnable scalar multiplier to W and confirm that the WD-noise equilibrium norm is suboptimal: the learned scale adapts to data and improves performance. We then argue that individual row and column norms are similarly constrained, and free their scale by introducing learnable per-row and per-column multipliers. Our method can be viewed as a learnable, more expressive generalization of muP multipliers. It outperforms a well-tuned muP baseline, reduces the computational overhead of multiplier tuning, and surfaces practical questions such as forward-pass symmetries and the width-scaling of the learned multipliers. Finally, we validate learnable multipliers with both Adam and Muon optimizers, where it shows improvement in downstream evaluations matching the improvement of the switching from Adam to Muon.
- Abstract(参考訳): 行列層に重量減衰(WD)を適用することは、大規模言語モデル事前学習の標準的な実践である。
以前の研究は、確率勾配ノイズは、WDに反作用する重量行列 W のブラウン的な膨張を誘導し、ある重みノルム ||W|| と WD-ノイズ平衡をもたらすことを示唆している。
本研究では,均衡規範をトレーニング手順の有害なアーティファクトとみなし,学習可能な乗算器を導入して,最適な尺度を学習する。
まず、学習可能なスカラー乗算器をWに取り付け、WD-ノイズ平衡ノルムが最適以下であることを確認する。
次に、各行と列のノルムも同様に制約され、学習可能な1行当たりおよびカラムごとの乗算器を導入することで、そのスケールを解放する。
この手法は muP 乗算器の学習可能で表現性の高い一般化とみなすことができる。
十分に調整された muP ベースラインを上回り、乗算器チューニングの計算オーバーヘッドを減らし、前方通過対称性や学習した乗算器の幅スケーリングといった実用的な問題を表面化する。
最後に、学習可能な乗算器をAdamとMuonの最適化器で検証し、AdamからMuonへの切り替えの改善と一致する下流評価の改善を示す。
関連論文リスト
- Stabilizing Native Low-Rank LLM Pretraining [24.2079184778031]
低ランク要因化は、トレーニングと推論コストを削減するための有望なルートを提供する。
我々は,Large Language Models (LLMs) を低ランクの分解量でスクラッチからトレーニングできることを実証した。
提案手法は,過度なオーバーヘッドを伴って,安定したエンドツーエンドのファクタライズトレーニングを可能にする。
論文 参考訳(メタデータ) (2026-02-12T21:33:14Z) - The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL [39.23942538769713]
大規模言語モデルのための強化学習(LLMs)は、勾配のばらつきが爆発的に広がるため、長い水平タスクのトレーニング崩壊に悩まされることが多い。
我々は、最適トークンベースライン(OTB)を第一原理から導出し、勾配更新が累積勾配ノルムに逆向きに重み付けされるべきであることを証明した。
提案手法はトレーニングの安定性を達成し,N=32$の大規模グループサイズとの性能を一致させ,シングルターンおよびツール統合推論タスクにおけるトークン消費量を65%以上削減する。
論文 参考訳(メタデータ) (2026-02-06T03:16:04Z) - REG: A Regularization Optimizer for Robust Training Dynamics [24.850151895583494]
RACS(Row-and-Column-Scaling)オペレータは、更新ステップをより劇的な方法で正規化することにより、既存のトレーニングダイナミクスの実装が簡単になり、互換性が向上する。
我々は,我々のREGがAdamWよりも優れた性能と安定性を達成できることを実証すると同時に,AdamWトレーニングパラダイムとの整合性も維持する。
論文 参考訳(メタデータ) (2025-10-04T06:05:57Z) - Hyperspherical Normalization for Scalable Deep Reinforcement Learning [57.016639036237315]
SimbaV2は最適化を安定させるために設計された新しい強化学習アーキテクチャである。
57の連続制御タスクにおいて、より大きなモデルとより大きな計算で効果的にスケールアップし、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-21T08:17:24Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Big Learning Expectation Maximization [13.709094150105566]
本稿では,共同,辺縁,直交の辺縁マッチングを同時に行うEMアップグレードであるBig Learning EM(BigLearn-EM)を提案する。
実験により,BigLearn-EMは高い確率で最適な結果を得ることができることを示す。
論文 参考訳(メタデータ) (2023-12-19T08:07:41Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。