論文の概要: Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization
- arxiv url: http://arxiv.org/abs/2509.03378v3
- Date: Mon, 06 Oct 2025 00:39:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.589912
- Title: Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization
- Title(参考訳): Kullback-Leibler の最小化による Shampoo と SOAP の理解と改善
- Authors: Wu Lin, Scott C. Lowe, Felix Dangel, Runa Eschenhagen, Zikun Xu, Roger B. Grosse,
- Abstract要約: 私たちは、SOAPレベル/イットランタイムを達成しながら、事前トレーニングにおいて、ShampooとSOAPのパフォーマンスに適合または超過するスキームを開発します。
KL-Shampooは一貫してSOAP、Shampoo、さらにはKL-SOAPよりも優れており、NN最適化における構造化メソッドを設計するための魅力的な基盤としてKLベースのアプローチを確立している。
- 参考スコア(独自算出の注目度): 22.631895671087534
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Shampoo and its efficient variant, SOAP, employ structured second-moment estimations and have shown strong performance for training neural networks (NNs). In practice, however, Shampoo typically requires step-size grafting with Adam to be competitive, and SOAP mitigates this by applying Adam in Shampoo's eigenbasis -- at the cost of additional memory overhead from Adam in both methods. Prior analyses have largely relied on the Frobenius norm to motivate these estimation schemes. We instead recast their estimation procedures as covariance estimation under Kullback-Leibler (KL) divergence minimization, revealing a previously overlooked theoretical limitation and motivating principled redesigns. Building on this perspective, we develop $\textbf{KL-Shampoo}$ and $\textbf{KL-SOAP}$, practical schemes that match or exceed the performance of Shampoo and SOAP in NN pre-training while achieving SOAP-level per-iteration runtime. Notably, KL-Shampoo does not rely on Adam to attain competitive performance, eliminating the memory overhead introduced by Adam. Across our experiments, KL-Shampoo consistently outperforms SOAP, Shampoo, and even KL-SOAP, establishing the KL-based approach as a compelling foundation for designing structured methods in NN optimization.
- Abstract(参考訳): Shampooとその効率的な変種であるSOAPは構造化第2モーメント推定を採用し、ニューラルネットワーク(NN)のトレーニングに強いパフォーマンスを示している。
しかし実際には、SOAPはAdamをシャンプーの固有ベイジに適用することで、両方の方法でAdamから追加のメモリオーバーヘッドを犠牲にして、これを緩和します。
以前の分析は、これらの推定スキームを動機付けるためにフロベニウスノルムに大きく依存していた。
代わりに、KL(Kullback-Leibler)の発散最小化の下で、それらの推定手順を共分散推定として再放送し、これまで見過ごされていた理論的制限と、原則化された再設計の動機を明らかにした。
この観点で、我々は、NNの事前トレーニングでShampooとSOAPのパフォーマンスに適合または超過する実践的なスキームである$\textbf{KL-SOAP}$と$\textbf{KL-SOAP}$を開発し、SOAPレベルの設定ランタイムを実現します。
特にKL-Shampooは、Adamが導入したメモリオーバーヘッドをなくし、競争性能を達成するためにAdamを頼りにしていない。
我々の実験全体で、KL-Shampooは一貫してSOAP、Shampoo、さらにはKL-SOAPよりも優れており、NN最適化における構造化メソッドを設計するための魅力的な基盤としてKLベースのアプローチを確立しています。
関連論文リスト
- Evaluating Sparse Autoencoders for Monosemantic Representation [7.46972338257749]
大きな言語モデルを解釈する鍵となる障壁は多意味性(polysemanticity)であり、ニューロンは複数の無関係な概念を活性化する。
スパースオートエンコーダ(SAE)は、高密度なアクティベーションをよりスパースで解釈可能な特徴に変換することでこの問題を軽減するために提案されている。
本稿では,単意味性に関する基礎モデルに対して,SAEを初めて体系的に評価する。
論文 参考訳(メタデータ) (2025-08-20T22:08:01Z) - A Stable Whitening Optimizer for Efficient Neural Network Training [101.89246340672246]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。
まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。
第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。
第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文 参考訳(メタデータ) (2025-06-08T18:43:31Z) - Purifying Shampoo: Investigating Shampoo's Heuristics by Decomposing its Preconditioner [22.81536065294916]
計算コンテストにおけるShampooの最近の成功Perfは、ニューラルネットワークのトレーニングのためのKroneckerfactorizationベースの最適化アルゴリズムに新たな関心を喚起した。
我々は,Adamからのグラフトは,プレコンディショナーの固有値の安定化と誤算を直接緩和し,その固有値の修正によって学習速度のグラフトの必要性を排除できることを示す。
論文 参考訳(メタデータ) (2025-06-04T05:55:41Z) - SOAP: Improving and Stabilizing Shampoo using Adam [10.191020824781756]
この研究はシャンプーとアダファクトの間の公式な関係を確立している。
AdafactorはAdamのメモリ効率の近似である。
シャンプーのプレコンディショナーの固有ベイズにおいて,シャンプーがAdafactorを実行することと等価であることを示す。
論文 参考訳(メタデータ) (2024-09-17T16:18:05Z) - A New Perspective on Shampoo's Preconditioner [15.817248348533353]
2階最適化アルゴリズムであるShampooは最近、機械学習コミュニティからの注目を集めている。
我々は、これらの行列の $textit$ Kronecker 積近似と Shampoo による近似との明示的で斬新な接続を提供する。
さまざまなデータセットで、最適なKronecker製品近似に近いことを実証的に実証する。
論文 参考訳(メタデータ) (2024-06-25T17:34:51Z) - Towards Communication-efficient Federated Learning via Sparse and Aligned Adaptive Optimization [65.85963235502322]
Federated Adam (FedAdam) アルゴリズムはアップリンク通信オーバーヘッドの3倍の増大に悩まされている。
我々はFedAdam-SSMと呼ばれる新しいスパースなFedAdamアルゴリズムを提案する。
我々は,FedAdam-SSMが訓練したモデルと集中型Adamの差異を最小化することにより,スペーシフィケーションエラーによる学習性能劣化を軽減するためにSSMを最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:56:49Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。