論文の概要: Iterative Orthogonalization Scaling Laws
- arxiv url: http://arxiv.org/abs/2505.04005v2
- Date: Thu, 08 May 2025 03:03:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 13:13:47.827324
- Title: Iterative Orthogonalization Scaling Laws
- Title(参考訳): 反復直交化スケーリング法則
- Authors: Devan Selvaraj,
- Abstract要約: ムーンは、現在見られるアダム行列の代替として、最近になって多くの注目を集めている。
本稿では, このスケーリング挙動を理論的, 実験的にランダム行列上で示すが, どうすればよいのかは示唆しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The muon optimizer has picked up much attention as of late as a possible replacement to the seemingly omnipresent Adam optimizer. Recently, care has been taken to document the scaling laws of hyper-parameters under muon such as weight decay and learning rate. However, at much larger scales the iterative orthogonalization procedure present in muon may suffer a possible issue as the singular values of random matrices shrink with scale. This paper shows this scaling behavior theoretically and empirically on random matrices but does not suggest what to do about it.
- Abstract(参考訳): ミューオンオプティマイザは、Adamオプティマイザの代替として最近注目を集めている。
近年、重量減少や学習率などのミューオン下でのハイパーパラメータのスケーリング法則の文書化に注意が払われている。
しかし、はるかに大きなスケールでは、ミューオンに存在する反復直交化手順は、ランダム行列の特異値がスケールとともに縮小するにつれて、可能な問題に直面する可能性がある。
本稿では, このスケーリング挙動を理論的, 実験的にランダム行列上で示すが, どうすればよいのかは示唆しない。
関連論文リスト
- Improving Adaptive Moment Optimization via Preconditioner Diagonalization [11.01832755213396]
提案手法は,現代適応法の収束速度を大幅に向上させることができることを示す。
LLaMAのような大きな言語モデルでは、ベースラインであるAdamと比較して2倍のスピードアップが達成できます。
論文 参考訳(メタデータ) (2025-02-11T11:48:04Z) - On the phase diagram of extensive-rank symmetric matrix denoising beyond rotational invariance [5.058205542605482]
我々は、信号が因子行列 $XXintercal$ で回転不変でないとき、行列の分解の理解に向けて前進する。
我々は、因子化(すなわち、$X$自身を推定する)が不可解な普遍性(英語版)(insolvable universality)まで可能となるのは、遷移を超えてのみであると主張する。
論文 参考訳(メタデータ) (2024-11-04T10:50:37Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - Matrix Completion via Non-Convex Relaxation and Adaptive Correlation
Learning [90.8576971748142]
閉形式解によって最適化できる新しいサロゲートを開発する。
そこで我々は, 上向きの相関関係を利用して, 適応的相関学習モデルを構築した。
論文 参考訳(メタデータ) (2022-03-04T08:50:50Z) - Interpolation can hurt robust generalization even when there is no noise [76.3492338989419]
リッジの正規化による一般化の回避は,ノイズがなくても大幅に一般化できることを示す。
この現象は線形回帰と分類の両方のロバストなリスクを証明し、したがってロバストなオーバーフィッティングに関する最初の理論的結果を与える。
論文 参考訳(メタデータ) (2021-08-05T23:04:15Z) - A Random Matrix Perspective on Random Tensors [40.89521598604993]
与えられたランダムテンソルの収縮から生じるランダム行列のスペクトルについて検討する。
本手法は,ML問題の局所的な最大値の未知な特徴を与える。
我々のアプローチは万能であり、非対称、非ガウス的、高階的など他のモデルにも拡張できる。
論文 参考訳(メタデータ) (2021-08-02T10:42:22Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Optimal Iterative Sketching with the Subsampled Randomized Hadamard
Transform [64.90148466525754]
最小二乗問題に対する反復スケッチの性能について検討する。
本研究では、Haar行列とランダム化されたHadamard行列の収束速度が同一であることを示し、ランダムなプロジェクションを経時的に改善することを示した。
これらの手法は、ランダム化次元還元を用いた他のアルゴリズムにも適用することができる。
論文 参考訳(メタデータ) (2020-02-03T16:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。