論文の概要: OLion: Approaching the Hadamard Ideal by Intersecting Spectral and $\ell_{\infty}$ Implicit Biases
- arxiv url: http://arxiv.org/abs/2602.01105v1
- Date: Sun, 01 Feb 2026 08:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.59479
- Title: OLion: Approaching the Hadamard Ideal by Intersecting Spectral and $\ell_{\infty}$ Implicit Biases
- Title(参考訳): OLion: Spectral と $\ell_{\infty}$ Implicit Biases の交差によるアダマール観念へのアプローチ
- Authors: Zixiao Wang, Yifei Shen, Huishuai Zhang,
- Abstract要約: nameAは、更新方向からのスペクトル制御と、署名更新からの座標制御を組み合わせる。
我々は、軽度で経験的に証明された対角対等方性仮定の下で収束を証明した。
nameA は運動量レベル状態のみを使用しながら、同等のチューニングの下でAdamW と Muon にマッチするか、より優れています。
- 参考スコア(独自算出の注目度): 29.60546958677364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many optimizers can be interpreted as steepest-descent methods under norm-induced geometries, and thus inherit corresponding implicit biases. We introduce \nameA{} (\fullname{}), which combines spectral control from orthogonalized update directions with $\ell_\infty$-style coordinate control from sign updates. \nameA{} forms a Lion-style momentum direction, approximately orthogonalizes it via a few Newton--Schulz iterations, and then applies an entrywise sign, providing an efficient approximation to taking a maximal step over the intersection of the spectral and $\ell_\infty$ constraint sets (a scaled Hadamard-like set for matrix parameters). Despite the strong nonlinearity of orthogonalization and sign, we prove convergence under a mild, empirically verified diagonal-isotropy assumption. Across large-scale language and vision training, including GPT-2 and Llama pretraining, SiT image pretraining, and supervised fine-tuning, \nameA{} matches or outperforms AdamW and Muon under comparable tuning while using only momentum-level optimizer state, and it mitigates optimizer mismatch when fine-tuning AdamW-pretrained checkpoints.
- Abstract(参考訳): 多くのオプティマイザはノルム誘起測地の下で最も急勾配の手法と解釈でき、従ってそれに対応する暗黙バイアスを継承する。
我々は、直交した更新方向からのスペクトル制御と、符号更新からの$\ell_\infty$-style座標制御を組み合わせた \nameA{} (\fullname{}) を導入する。
名前A{} はライオン型運動量方向を形成し、数個のニュートン-シュルツの反復を通してほぼ直交し、スペクトルの交叉上の極大ステップと$\ell_\infty$制約セット(行列パラメータのスケール化されたアダマールのような集合)を効率的に近似するエントリワイズ符号を施す。
直交化と符号の強い非線形性にもかかわらず、軽度で経験的に証明された対角異方性仮定の下で収束を証明する。
GPT-2とLlamaの事前トレーニング、SiTイメージの事前トレーニング、教師付き微調整などを含む大規模な言語と視覚トレーニングは、モーメントレベルのオプティマイザ状態のみを使用しながら、AdamWとMuonに匹敵するチューニングの下で、AdamWとMuonのマッチングや性能を向上し、AdamWが事前訓練したチェックポイントを微調整する際のオプティマイザミスマッチを緩和する。
関連論文リスト
- Scaling Bidirectional Spans and Span Violations in Attention Mechanism [5.755498052202004]
canonical $O(N2)$ Transformerは、シーケンスモデリングにおける経験的なパフォーマンスフロンティアのままである。
本研究では,非対称なプロジェクションを利用して後方方向の勾配を並列スパンに分解する最適化フレームワークを提案する。
我々はこれらのコンポーネントを選択的にスケーリングし、主に0分の1の双方向並列スパンにフォーカスすることで、最も効果的な学習信号が得られることを示した。
論文 参考訳(メタデータ) (2025-12-15T07:03:24Z) - AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates [5.049533819651459]
我々は、標準ベースの更新とaGradタイプのステップを組み合わせた新しい適応型更新AdaGOを提案する。
AdaGOは更新の直交性を保持しており、これはスペクトル降下と解釈できる。
論文 参考訳(メタデータ) (2025-09-03T03:42:22Z) - Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。
本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文 参考訳(メタデータ) (2025-06-02T17:34:29Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization [116.89941263390769]
滑らかな凸凹凸結合型サドル点問題, $min_mathbfxmax_mathbfyF(mathbfx) + H(mathbfx,mathbfy)$ を考える。
漸進的勾配指数(AG-EG)降下指数アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-06-17T06:10:20Z) - Optimal and instance-dependent guarantees for Markovian linear stochastic approximation [47.912511426974376]
標準スキームの最後の繰り返しの2乗誤差に対して、$t_mathrmmix tfracdn$の非漸近境界を示す。
マルコフ雑音による政策評価について,これらの結果のまとめを導出する。
論文 参考訳(メタデータ) (2021-12-23T18:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。