論文の概要: DeMuon: A Decentralized Muon for Matrix Optimization over Graphs
- arxiv url: http://arxiv.org/abs/2510.01377v1
- Date: Wed, 01 Oct 2025 19:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.83298
- Title: DeMuon: A Decentralized Muon for Matrix Optimization over Graphs
- Title(参考訳): DeMuon: グラフ上のマトリックス最適化のための分散ミューオン
- Authors: Chuan He, Shuyi Ren, Jingwei Mao, Erik G. Larsson,
- Abstract要約: DeMuonは、与えられた通信トポロジに対する分散行列最適化の方法である。
我々は,様々な接続度を持つグラフを事前学習する分散トランスについて,予備的な数値実験を行った。
- 参考スコア(独自算出の注目度): 20.832302616074966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose DeMuon, a method for decentralized matrix optimization over a given communication topology. DeMuon incorporates matrix orthogonalization via Newton-Schulz iterations-a technique inherited from its centralized predecessor, Muon-and employs gradient tracking to mitigate heterogeneity among local functions. Under heavy-tailed noise conditions and additional mild assumptions, we establish the iteration complexity of DeMuon for reaching an approximate stochastic stationary point. This complexity result matches the best-known complexity bounds of centralized algorithms in terms of dependence on the target tolerance. To the best of our knowledge, DeMuon is the first direct extension of Muon to decentralized optimization over graphs with provable complexity guarantees. We conduct preliminary numerical experiments on decentralized transformer pretraining over graphs with varying degrees of connectivity. Our numerical results demonstrate a clear margin of improvement of DeMuon over other popular decentralized algorithms across different network topologies.
- Abstract(参考訳): 本稿では,与えられた通信トポロジに対する分散行列最適化手法であるDeMuonを提案する。
DeMuon は、Newton-Schulz 反復による行列直交化(英語版)を取り入れている。
重み付き雑音条件と追加の軽度仮定の下では、近似確率的定常点に到達するためのデムーンの反復複雑性を確立する。
この複雑性結果は、ターゲットの許容度に依存するという点で、集中型アルゴリズムの最もよく知られた複雑性境界と一致する。
私たちの知る限りでは、DeMuonは、証明可能な複雑性保証付きグラフ上の分散最適化に対するMuonの最初の直接拡張である。
我々は,様々な接続度を持つグラフを事前学習する分散トランスについて,予備的な数値実験を行った。
計算の結果,ネットワークトポロジにまたがる他の分散アルゴリズムに比べて,DeMuonは明らかに改善されていることがわかった。
関連論文リスト
- Error Feedback for Muon and Friends [80.90330715662961]
我々は、厳密な収束保証を備えた最初の通信効率非ユークリッドLMOであるEF21-Muonを紹介する。
我々の理論は、非ユークリッドの滑らかさとより一般的な$(L0, L1)$-smooth設定をカバーし、最もよく知られたユークリッドの速度と一致し、適切なノルム選択の下でより高速な収束を可能にする。
論文 参考訳(メタデータ) (2025-10-01T08:20:08Z) - Low-rank Orthogonalization for Large-scale Matrix Optimization with Applications to Foundation Model Training [3.1922198632169327]
近年、Muon citejordanmuonは、基礎モデルトレーニングにおける強力なパフォーマンスに対して大きな注目を集めている。
我々は,低ランク行列符号の勾配降下と低ランクのムオン変種を提案する。
論文 参考訳(メタデータ) (2025-09-15T14:28:53Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Data-heterogeneity-aware Mixing for Decentralized Learning [63.83913592085953]
グラフの混合重みとノード間のデータ不均一性の関係に収束の依存性を特徴付ける。
グラフが現在の勾配を混合する能力を定量化する計量法を提案する。
そこで本研究では,パラメータを周期的かつ効率的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T15:54:35Z) - Mime: Mimicking Centralized Stochastic Algorithms in Federated Learning [102.26119328920547]
フェデレートラーニング(FL)は、異なるクライアントにわたるデータの均一性のため、最適化の難しい設定である。
本稿では,クライアントのドリフトを緩和し,任意の集中最適化アルゴリズムを適用するアルゴリズムフレームワークであるMimeを提案する。
論文 参考訳(メタデータ) (2020-08-08T21:55:07Z) - Quantized Decentralized Stochastic Learning over Directed Graphs [54.005946490293496]
有向グラフ上で通信する計算ノード間でデータポイントが分散される分散学習問題を考える。
モデルのサイズが大きくなるにつれて、分散学習は、各ノードが隣人にメッセージ(モデル更新)を送信することによる通信負荷の大きなボトルネックに直面します。
本稿では,分散コンセンサス最適化におけるプッシュサムアルゴリズムに基づく有向グラフ上の量子化分散学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-23T18:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。