論文の概要: Orth-Dion: Eliminating Geometric Mismatch in Distributed Low-Rank Spectral Optimization
- arxiv url: http://arxiv.org/abs/2605.16341v1
- Date: Thu, 07 May 2026 23:37:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.896856
- Title: Orth-Dion: Eliminating Geometric Mismatch in Distributed Low-Rank Spectral Optimization
- Title(参考訳): Orth-Dion:分散低ランクスペクトル最適化における幾何学的ミスマッチの除去
- Authors: Tatsuhiro Nakamori, Laura Gomezjurado Gonzalez, Ganesh Talluri, Ansh Tiwari, Hideyuki Kawashima, Ioannis Mitliagkas, Guillaume Rabusseau, Hiroki Naganuma,
- Abstract要約: 低ランク勾配圧縮は、ランク-r$要素による更新を表現することで、分散トレーニングにおける通信を減少させる。
列正規化を正しい因子のQR直交化に置き換えるOrth-Dionを提案する。
大規模言語モデルの事前トレーニング実験は、予測された$sqrtr$スケーリングを検証し、Orth-DionがDionの通信コストでMuonへの収束ギャップを閉じていることを示す。
- 参考スコア(独自算出の注目度): 12.526290684448425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-rank gradient compression reduces communication in distributed training by representing updates with rank-$r$ factors. Dion is a recent method that approximates Muon, a spectral optimizer that orthogonalizes momentum, using one step of power iteration followed by column normalization (rescaling each column of the right factor to unit length). This makes it compatible with fully sharded data parallel training, but it converges more slowly than full-rank spectral methods. We show that this gap is geometric: column normalization does not yield the rank-$r$ polar factor that Muon implicitly targets, so the resulting direction violates the dual-norm constraint of the low-rank spectral geometry, and the rate picks up an extra factor of $\sqrt{r}$ even though the low-rank approximation of the gradient itself is accurate. The same mismatch enters the smoothness term and the error-feedback recursion in the analysis, which has a knock-on effect on empirical performance. We propose Orth-Dion, which replaces column normalization with QR orthogonalization of the right factor. Under non-Euclidean smoothness, with $L_r$ the curvature constant along rank-$r$ directions, Orth-Dion attains rate $O(\sqrt{L_r/T})$, matching exact spectral methods at the same per-step communication cost as Dion. The proof removes the bounded-drift assumption common in prior error-feedback analyses via a self-consistent fixed-point argument, and uses a time-averaged contraction that only requires the error sequence to contract on average rather than at every step. Experiments on large-scale language model pre-training validate the predicted $\sqrt{r}$ scaling and show that Orth-Dion closes the convergence gap to Muon at Dion's communication cost.
- Abstract(参考訳): 低ランク勾配圧縮は、ランク-r$要素による更新を表現することで、分散トレーニングにおける通信を減少させる。
ディオン(Dion)は、パワーイテレーションの1ステップとカラム正規化(正しい係数の列を単位長に再スケーリングする)を用いて、運動量を直交するスペクトルオプティマイザであるムオンを近似する最近の手法である。
これにより、完全にシャーディングされたデータ並列トレーニングと互換性があるが、フルランクのスペクトル法よりもゆっくりと収束する。
カラム正規化は、ムオンが暗黙的に狙うランク-r$極性因子を生じないので、結果として得られる方向は、低ランクのスペクトル幾何学の双ノルム制約に反し、勾配自体の低ランク近似が正確であるにもかかわらず、その速度は$\sqrt{r}$の余剰因子を拾う。
同じミスマッチが解析におけるスムーズな項とエラーフィードバック再帰に入り、これは経験的性能にノックオン効果がある。
列正規化を正しい因子のQR直交化に置き換えるOrth-Dionを提案する。
非ユークリッドな滑らかさの下では、$L_r$ 階数-$r$ 方向に沿った曲率定数で、Orth-Dion は$O(\sqrt{L_r/T})$ となり、Dion と同じステップ毎の通信コストで正確なスペクトル法と一致する。
この証明は、自己一貫性のある固定点引数を介して、事前のエラーフィードバック解析に共通する有界ドリフト仮定を除去し、平均的な収縮を使い、全てのステップでではなく平均的にエラーシーケンスを収縮させるだけである。
大規模言語モデルの事前学習実験は、予測された$\sqrt{r}$スケーリングを検証し、Orth-DionがDionの通信コストでMuonへの収束ギャップを閉じていることを示す。
関連論文リスト
- The Spectral Edge Thesis: A Mathematical Framework for Intra-Signal Phase Transitions in Neural Network Training [0.0]
ニューラルネットワークトレーニングにおける位相遷移は,パラメータ更新の回転ウィンドウグラム行列のスペクトルギャップによって制御されることを示す。
adiabatic parameter $mathcalA = |G|_F / (, g2)$ control circuit stability: $mathcalA ll 1$ (plateau), $mathcalA sim 1$ (phase transition), $mathcalA gg 1$ (forgetting)
論文 参考訳(メタデータ) (2026-03-30T20:10:22Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - OLion: Approaching the Hadamard Ideal by Intersecting Spectral and $\ell_{\infty}$ Implicit Biases [29.60546958677364]
nameAは、更新方向からのスペクトル制御と、署名更新からの座標制御を組み合わせる。
我々は、軽度で経験的に証明された対角対等方性仮定の下で収束を証明した。
nameA は運動量レベル状態のみを使用しながら、同等のチューニングの下でAdamW と Muon にマッチするか、より優れています。
論文 参考訳(メタデータ) (2026-02-01T08:59:45Z) - Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference [1.7523718031184992]
この障害の基本的なメカニズムは、 textbf Premature Mode Collapseである。
提案手法は,適応型スケジューリングアルゴリズムであるtextbfEfficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC) で,推論過程の安定性をモニタする。
論文 参考訳(メタデータ) (2026-01-30T14:47:18Z) - Scale-Invariant Regret Matching and Online Learning with Optimal Convergence: Bridging Theory and Practice in Zero-Sum Games [60.871651115241406]
ゼロサムゲームにおける理論と実践の間、何十年にもわたってかなりのシャズムが一階法によって浸食されてきた。
我々は、IREG-PRM$+$と呼ぶPRM$+$の新しいスケール不変かつパラメータフリーな変種を提案する。
ベンチマークゲームでは, PRM$+$と同等でありながら, 最適収束保証を$T-1/2$, $T-1$とする。
論文 参考訳(メタデータ) (2025-10-06T00:33:20Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。