論文の概要: OLion: Approaching the Hadamard Ideal by Intersecting Spectral and $\ell_{\infty}$ Implicit Biases
- arxiv url: http://arxiv.org/abs/2602.01105v2
- Date: Mon, 09 Feb 2026 09:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 17:49:39.426978
- Title: OLion: Approaching the Hadamard Ideal by Intersecting Spectral and $\ell_{\infty}$ Implicit Biases
- Title(参考訳): OLion: Spectral と $\ell_{\infty}$ Implicit Biases の交差によるアダマール観念へのアプローチ
- Authors: Zixiao Wang, Yifei Shen, Huishuai Zhang,
- Abstract要約: nameAは、更新方向からのスペクトル制御と、署名更新からの座標制御を組み合わせる。
我々は、軽度で経験的に証明された対角対等方性仮定の下で収束を証明した。
nameA は運動量レベル状態のみを使用しながら、同等のチューニングの下でAdamW と Muon にマッチするか、より優れています。
- 参考スコア(独自算出の注目度): 29.60546958677364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many optimizers can be interpreted as steepest-descent methods under norm-induced geometries, and thus inherit corresponding implicit biases. We introduce \nameA{} (\fullname{}), which combines spectral control from orthogonalized update directions with $\ell_\infty$-style coordinate control from sign updates. \nameA{} forms a Lion-style momentum direction, approximately orthogonalizes it via a few Newton--Schulz iterations, and then applies an entrywise sign, providing an efficient approximation to taking a maximal step over the intersection of the spectral and $\ell_\infty$ constraint sets (a scaled Hadamard-like set for matrix parameters). Despite the strong nonlinearity of orthogonalization and sign, we prove convergence under a mild, empirically verified diagonal-isotropy assumption. Across large-scale language and vision training, including GPT-2 and Llama pretraining, SiT image pretraining, and supervised fine-tuning, \nameA{} matches or outperforms AdamW and Muon under comparable tuning while using only momentum-level optimizer state, and it mitigates optimizer mismatch when fine-tuning AdamW-pretrained checkpoints.
- Abstract(参考訳): 多くのオプティマイザはノルム誘起測地の下で最も急勾配の手法と解釈でき、従ってそれに対応する暗黙バイアスを継承する。
我々は、直交した更新方向からのスペクトル制御と、符号更新からの$\ell_\infty$-style座標制御を組み合わせた \nameA{} (\fullname{}) を導入する。
名前A{} はライオン型運動量方向を形成し、数個のニュートン-シュルツの反復を通してほぼ直交し、スペクトルの交叉上の極大ステップと$\ell_\infty$制約セット(行列パラメータのスケール化されたアダマールのような集合)を効率的に近似するエントリワイズ符号を施す。
直交化と符号の強い非線形性にもかかわらず、軽度で経験的に証明された対角異方性仮定の下で収束を証明する。
GPT-2とLlamaの事前トレーニング、SiTイメージの事前トレーニング、教師付き微調整などを含む大規模な言語と視覚トレーニングは、モーメントレベルのオプティマイザ状態のみを使用しながら、AdamWとMuonに匹敵するチューニングの下で、AdamWとMuonのマッチングや性能を向上し、AdamWが事前訓練したチェックポイントを微調整する際のオプティマイザミスマッチを緩和する。
関連論文リスト
- Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Decoupling Variance and Scale-Invariant Updates in Adaptive Gradient Descent for Unified Vector and Matrix Optimization [14.136955342888987]
我々はAdaGradの更新を改訂し、分散適応項とスケール不変項に分解する。
これは、ベクトルベースの分散適応と行列スペクトル最適化をブリッジするフレームワークである、textbfDeVA$$textbfV$ariance $textbfA$daptationを生成する。
論文 参考訳(メタデータ) (2026-02-06T17:06:42Z) - RanSOM: Second-Order Momentum with Randomized Scaling for Constrained and Unconstrained Optimization [1.3537117504260623]
Polyak's Heavy Ballのようなモメンタム法はディープネットワークのトレーニングの標準であるが、設定の曲率に起因したバイアスに悩まされている。
textbfRanSOMは、決定論的ステップサイズを、平均$_t$で分布から引き出されたランダム化ステップに置き換えることで、このバイアスを解消する統合フレームワークである。
我々はこのフレームワークを,制約のない最適化のための textbfRanSOM-E と制約のない最適化のための textbfRanSOM-B の2つのアルゴリズムでインスタンス化する。
論文 参考訳(メタデータ) (2026-02-06T16:09:36Z) - Scaling Bidirectional Spans and Span Violations in Attention Mechanism [5.755498052202004]
canonical $O(N2)$ Transformerは、シーケンスモデリングにおける経験的なパフォーマンスフロンティアのままである。
本研究では,非対称なプロジェクションを利用して後方方向の勾配を並列スパンに分解する最適化フレームワークを提案する。
我々はこれらのコンポーネントを選択的にスケーリングし、主に0分の1の双方向並列スパンにフォーカスすることで、最も効果的な学習信号が得られることを示した。
論文 参考訳(メタデータ) (2025-12-15T07:03:24Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates [5.049533819651459]
我々は、標準ベースの更新とaGradタイプのステップを組み合わせた新しい適応型更新AdaGOを提案する。
AdaGOは更新の直交性を保持しており、これはスペクトル降下と解釈できる。
論文 参考訳(メタデータ) (2025-09-03T03:42:22Z) - Simple Convergence Proof of Adam From a Sign-like Descent Perspective [58.89890024903816]
我々は、Adamが以前の$cal O(fracln TTs14)$よりも$cal O(frac1Ts14)$の最適なレートを達成することを示す。
我々の理論分析は、収束を保証する重要な要因として運動量の役割に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-08T13:19:26Z) - Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。
本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文 参考訳(メタデータ) (2025-06-02T17:34:29Z) - Implicit Bias and Fast Convergence Rates for Self-attention [26.766649949420746]
本稿では,変圧器の定義機構である自己注意の基本的な最適化原理について考察する。
線形分類におけるデコーダを用いた自己アテンション層における勾配ベースの暗黙バイアスを解析する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization [116.89941263390769]
滑らかな凸凹凸結合型サドル点問題, $min_mathbfxmax_mathbfyF(mathbfx) + H(mathbfx,mathbfy)$ を考える。
漸進的勾配指数(AG-EG)降下指数アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-06-17T06:10:20Z) - Optimal and instance-dependent guarantees for Markovian linear stochastic approximation [47.912511426974376]
標準スキームの最後の繰り返しの2乗誤差に対して、$t_mathrmmix tfracdn$の非漸近境界を示す。
マルコフ雑音による政策評価について,これらの結果のまとめを導出する。
論文 参考訳(メタデータ) (2021-12-23T18:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。