論文の概要: Clarifying Shampoo: Adapting Spectral Descent to Stochasticity and the Parameter Trajectory
- arxiv url: http://arxiv.org/abs/2602.09314v1
- Date: Tue, 10 Feb 2026 01:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.308288
- Title: Clarifying Shampoo: Adapting Spectral Descent to Stochasticity and the Parameter Trajectory
- Title(参考訳): シャンプーの明瞭化: スペクトルの輝きを確率に適応させるとパラメータの軌跡
- Authors: Runa Eschenhagen, Anna Cai, Tsung-Hsien Lee, Hao-Jun Michael Shi,
- Abstract要約: ShampooとMuonは、AdamやSignumのような要素ワイドアルゴリズムよりもデータ効率が高い。
ShampooはMuonよりも高いトークン効率を実現しており、AdamのSignumに対する優位性を反映している。
- 参考スコア(独自算出の注目度): 3.7461573102874954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizers leveraging the matrix structure in neural networks, such as Shampoo and Muon, are more data-efficient than element-wise algorithms like Adam and Signum. While in specific settings, Shampoo and Muon reduce to spectral descent analogous to how Adam and Signum reduce to sign descent, their general relationship and relative data efficiency under controlled settings remain unclear. Through extensive experiments on language models, we demonstrate that Shampoo achieves higher token efficiency than Muon, mirroring Adam's advantage over Signum. We show that Shampoo's update applied to weight matrices can be decomposed into an adapted Muon update. Consistent with this, Shampoo's benefits can be exclusively attributed to its application to weight matrices, challenging interpretations agnostic to parameter shapes. This admits a new perspective that also avoids shortcomings of related interpretations based on variance adaptation and whitening: rather than enforcing semi-orthogonality as in spectral descent, Shampoo's updates are time-averaged semi-orthogonal in expectation.
- Abstract(参考訳): ShampooやMuonのようなニューラルネットワークの行列構造を利用する最適化は、AdamやSignumのような要素ワイドアルゴリズムよりもデータ効率が高い。
特定の環境では、シャンプーとムオンは、アダムとシグナムが信号降下を減じる方法に類似したスペクトル降下に還元されるが、それらの一般的な関係と制御された条件下での相対データ効率は不明確である。
言語モデルに関する広範な実験を通じて、ShampooはMuonよりも高いトークン効率を実現しており、AdamのSignumに対する優位性を反映している。
重量行列に適用されたシャンプーの更新は、適応されたミューオン更新に分解可能であることを示す。
これと矛盾しないが、シャンプーの利点は、その重量行列への応用、パラメータ形状に非依存な解釈に挑戦することによるものである。
これは、スペクトル降下のように半直交を強制するのではなく、シャンプーの更新は平均的な半直交を期待する時間で表す。
関連論文リスト
- Preconditioning Benefits of Spectral Orthogonalization in Muon [50.62925024212989]
線形変圧器の行列分解と文脈内学習の2つのケーススタディにおいて,ミュオンの簡易版の有効性について検討した。
解析の結果,Muonのダイナミクスはスペクトル領域内の独立したスカラー配列の集合に分解され,それぞれが同様の収束挙動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-20T00:08:31Z) - What Really Matters in Matrix-Whitening Optimizers? [99.7641280234926]
行列白化法は要素的に確実に優れていることを示す。
ベト・アダプテッド・バージョンは、サイン・ディフレッシュ・バージョンよりも一貫して上回っている。
低ランク分散推定器は性能損失を伴わずにメモリコストを効果的に削減できる。
論文 参考訳(メタデータ) (2025-10-28T21:59:49Z) - How Muon's Spectral Design Benefits Generalization: A Study on Imbalanced Data [38.54408542311739]
本研究では,Muon や Shampoo などのスペクトル対応行列の一般化が競合アルゴリズムより優れていることを示す。
様々な不均衡データセットに関する理論的知見を実証的に検証する。
論文 参考訳(メタデータ) (2025-10-27T04:00:42Z) - Muon Outperforms Adam in Tail-End Associative Memory Learning [118.98991042050532]
機能埋め込みにかかわらず,Muonはクラス間のバランスの取れた学習を一貫して達成している。
我々の経験的観察と理論的分析により、ムオンの核となる利点が明らかとなり、その更新規則は線形連想記憶の外積構造と一致している。
論文 参考訳(メタデータ) (2025-09-30T10:04:08Z) - Understanding SOAP from the Perspective of Gradient Whitening [1.5930654066091687]
我々は勾配の白化の観点からAdam、Shampoo、SOAPを分析します。
Kronecker の製品仮定の下で,SOAP と Shampoo の理想的なバージョン間の理論的等価性を確立する。
以上の結果から,SOAP は Shampoo と同様の収束率を示し,最終的な損失において Adam と Shampoo の双方に対して有意な優位性は得られなかった。
論文 参考訳(メタデータ) (2025-09-26T21:13:02Z) - Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization [22.631895671087534]
私たちは、SOAPレベル/イットランタイムを達成しながら、事前トレーニングにおいて、ShampooとSOAPのパフォーマンスに適合または超過するスキームを開発します。
KL-Shampooは一貫してSOAP、Shampoo、さらにはKL-SOAPよりも優れており、NN最適化における構造化メソッドを設計するための魅力的な基盤としてKLベースのアプローチを確立している。
論文 参考訳(メタデータ) (2025-09-03T14:55:15Z) - Mitigating Object Hallucination in MLLMs via Data-augmented Phrase-level Alignment [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。
そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文 参考訳(メタデータ) (2024-05-28T23:36:00Z) - Learning Layer-wise Equivariances Automatically using Gradients [66.81218780702125]
畳み込みは等価対称性をニューラルネットワークにエンコードし、より優れた一般化性能をもたらす。
対称性は、ネットワークが表現できる機能、事前に指定する必要、適応できない機能に対して、固定されたハード制約を提供する。
私たちのゴールは、勾配を使ってデータから自動的に学習できるフレキシブル対称性の制約を可能にすることです。
論文 参考訳(メタデータ) (2023-10-09T20:22:43Z) - Learning Invariances in Neural Networks [51.20867785006147]
ネットワークパラメータや拡張パラメータに関して,拡張性よりも分布をパラメータ化し,トレーニング損失を同時に最適化する方法を示す。
画像分類,回帰,セグメンテーション,分子特性予測における不均一性の正確なセットと範囲を,拡張の広い空間から復元することができる。
論文 参考訳(メタデータ) (2020-10-22T17:18:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。