論文の概要: Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization
- arxiv url: http://arxiv.org/abs/2509.03378v2
- Date: Tue, 30 Sep 2025 03:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 21:59:07.544987
- Title: Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization
- Title(参考訳): Kullback-Leibler の最小化による Shampoo と SOAP の理解と改善
- Authors: Wu Lin, Scott C. Lowe, Felix Dangel, Runa Eschenhagen, Zikun Xu, Roger B. Grosse,
- Abstract要約: 第2モーメントと共分散行列の自然な対応により、シャンプーとSOAPの推定手順を再解釈する。
本稿では,各種NNの事前学習において,シャンプーとSOAPの性能に適合する実測手法を提案する。
特に、KL-Shampooは優れたパフォーマンスを達成するためにAdamに依存していないため、関連するメモリオーバーヘッドを回避することができる。
- 参考スコア(独自算出の注目度): 22.631895671087534
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Shampoo and its efficient variant, SOAP, use structured second-moment estimation and have attracted growing interest for their effectiveness in training neural networks (NNs). In practice, Shampoo requires step-size grafting with Adam to achieve competitive performance. SOAP mitigates this by applying Adam in Shampoo's eigenbasis and further reducing per-iteration runtime. However, reliance on Adam introduces additional memory overhead in both methods. Prior theoretical interpretations have primarily examined their estimation schemes using the Frobenius norm. Motivated by the natural correspondence between the second moment and a covariance matrix, we reinterpret the estimation procedures in Shampoo and SOAP as instances of covariance estimation through the lens of Kullback-Leibler (KL) divergence minimization. This perspective reveals a previously overlooked theoretical limitation and motivates principled improvements to their design. Building on the KL perspective, we propose practical estimation schemes -- $\textbf{KL-Shampoo}$ and $\textbf{KL-SOAP}$ -- that match or exceed the performance of Shampoo and SOAP for pre-training various NNs while maintaining SOAP-level per-iteration runtime. Notably, KL-Shampoo does not rely on Adam to achieve superior performance, thereby avoiding the associated memory overhead. Surprisingly, KL-Shampoo consistently outperforms the other methods in our experiments.
- Abstract(参考訳): Shampooとその効率的な変種であるSOAPは構造化された第2モーメント推定を使用しており、ニューラルネットワーク(NN)のトレーニングにおける有効性に対する関心が高まっている。
実際には、シャンプーは競争的なパフォーマンスを達成するためにアダムとステップサイズのグラフトを必要とする。
SOAPは、Shmpooの固有ベイズにAdamを適用することでこれを緩和し、また、イテレーション毎のランタイムをさらに削減します。
しかし、Adamへの依存は両方のメソッドにメモリオーバーヘッドを追加する。
以前の理論的解釈はフロベニウスノルムを用いてそれらの推定スキームを主に検討してきた。
第2モーメントと共分散行列の自然な対応により、我々は、KL(Kulback-Leibler)の発散最小化による共分散推定の事例として、シャンプーとSOAPの推定手順を再解釈する。
この視点は、これまで見過ごされていた理論上の限界を明らかにし、設計の原則的な改善を動機付けている。
KLの観点から、我々は、様々なNNを事前トレーニングし、SOAPレベルのイテレーションランタイムを維持しながら、ShampooとSOAPのパフォーマンスを一致させる、実践的な推定スキーム -- $\textbf{KL-SOAP}$と$\textbf{KL-SOAP}$ -- を提案する。
特に、KL-Shampooは優れたパフォーマンスを達成するためにAdamに依存していないため、関連するメモリオーバーヘッドを回避することができる。
驚くべきことに、KL-Shampooは我々の実験で他の方法よりも一貫して優れています。
関連論文リスト
- Evaluating Sparse Autoencoders for Monosemantic Representation [7.46972338257749]
大きな言語モデルを解釈する鍵となる障壁は多意味性(polysemanticity)であり、ニューロンは複数の無関係な概念を活性化する。
スパースオートエンコーダ(SAE)は、高密度なアクティベーションをよりスパースで解釈可能な特徴に変換することでこの問題を軽減するために提案されている。
本稿では,単意味性に関する基礎モデルに対して,SAEを初めて体系的に評価する。
論文 参考訳(メタデータ) (2025-08-20T22:08:01Z) - A Stable Whitening Optimizer for Efficient Neural Network Training [101.89246340672246]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。
まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。
第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。
第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文 参考訳(メタデータ) (2025-06-08T18:43:31Z) - Purifying Shampoo: Investigating Shampoo's Heuristics by Decomposing its Preconditioner [22.81536065294916]
計算コンテストにおけるShampooの最近の成功Perfは、ニューラルネットワークのトレーニングのためのKroneckerfactorizationベースの最適化アルゴリズムに新たな関心を喚起した。
我々は,Adamからのグラフトは,プレコンディショナーの固有値の安定化と誤算を直接緩和し,その固有値の修正によって学習速度のグラフトの必要性を排除できることを示す。
論文 参考訳(メタデータ) (2025-06-04T05:55:41Z) - SOAP: Improving and Stabilizing Shampoo using Adam [10.191020824781756]
この研究はシャンプーとアダファクトの間の公式な関係を確立している。
AdafactorはAdamのメモリ効率の近似である。
シャンプーのプレコンディショナーの固有ベイズにおいて,シャンプーがAdafactorを実行することと等価であることを示す。
論文 参考訳(メタデータ) (2024-09-17T16:18:05Z) - A New Perspective on Shampoo's Preconditioner [15.817248348533353]
2階最適化アルゴリズムであるShampooは最近、機械学習コミュニティからの注目を集めている。
我々は、これらの行列の $textit$ Kronecker 積近似と Shampoo による近似との明示的で斬新な接続を提供する。
さまざまなデータセットで、最適なKronecker製品近似に近いことを実証的に実証する。
論文 参考訳(メタデータ) (2024-06-25T17:34:51Z) - Towards Communication-efficient Federated Learning via Sparse and Aligned Adaptive Optimization [65.85963235502322]
Federated Adam (FedAdam) アルゴリズムはアップリンク通信オーバーヘッドの3倍の増大に悩まされている。
我々はFedAdam-SSMと呼ばれる新しいスパースなFedAdamアルゴリズムを提案する。
我々は,FedAdam-SSMが訓練したモデルと集中型Adamの差異を最小化することにより,スペーシフィケーションエラーによる学習性能劣化を軽減するためにSSMを最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:56:49Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。