論文の概要: Understanding and Improving the Shampoo Optimizer via Kullback-Leibler Minimization
- arxiv url: http://arxiv.org/abs/2509.03378v1
- Date: Wed, 03 Sep 2025 14:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.561951
- Title: Understanding and Improving the Shampoo Optimizer via Kullback-Leibler Minimization
- Title(参考訳): Kullback-Leibler最小化によるシャンプー最適化の理解と改善
- Authors: Wu Lin, Scott C. Lowe, Felix Dangel, Runa Eschenhagen, Zikun Xu, Roger B. Grosse,
- Abstract要約: クルバック・リーブラー (KL) 最小化レンズを用いてシャンプーの推定を共分散推定として検討した。
我々は,安定化のために,シャンプーがアダムに頼っていることを排除し,実践的な推定手法であるKL-シャンプーを開発した。
予備的な結果は、KL-ShampooがShampooのパフォーマンスを改善し、Adamなしで安定させ、ニューラルネットワークの事前トレーニングにおいてAdam安定化版であるSOAPよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 22.631895671087534
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As an adaptive method, Shampoo employs a structured second-moment estimation, and its effectiveness has attracted growing attention. Prior work has primarily analyzed its estimation scheme through the Frobenius norm. Motivated by the natural connection between the second moment and a covariance matrix, we propose studying Shampoo's estimation as covariance estimation through the lens of Kullback-Leibler (KL) minimization. This alternative perspective reveals a previously hidden limitation, motivating improvements to Shampoo's design. Building on this insight, we develop a practical estimation scheme, termed KL-Shampoo, that eliminates Shampoo's reliance on Adam for stabilization, thereby removing the additional memory overhead introduced by Adam. Preliminary results show that KL-Shampoo improves Shampoo's performance, enabling it to stabilize without Adam and even outperform its Adam-stabilized variant, SOAP, in neural network pretraining.
- Abstract(参考訳): 適応的手法として、シャンプーは構造化第2モーメント推定を採用し、その効果が注目されている。
以前の研究は、主にフロベニウスノルムを通じてその推定スキームを分析した。
第二モーメントと共分散行列との自然な接続によって動機づけられ, クルバック・リーブラー(KL)最小化のレンズによる共分散推定としてのシャンプーの推定について検討する。
この別の見方は、以前は隠されていた制限を明らかにし、シャンプーの設計の改善を動機付けている。
この知見に基づいて、我々はKL-Shampooと呼ばれる実用的な推定手法を開発し、シャンプーが安定化のためにAdamに頼っていることを排除し、Adamが導入したメモリオーバーヘッドを除去する。
予備的な結果は、KL-ShampooがShampooのパフォーマンスを改善し、Adamなしで安定させ、ニューラルネットワークの事前トレーニングにおいてAdam安定化版であるSOAPよりも優れていることを示している。
関連論文リスト
- Evaluating Sparse Autoencoders for Monosemantic Representation [7.46972338257749]
大きな言語モデルを解釈する鍵となる障壁は多意味性(polysemanticity)であり、ニューロンは複数の無関係な概念を活性化する。
スパースオートエンコーダ(SAE)は、高密度なアクティベーションをよりスパースで解釈可能な特徴に変換することでこの問題を軽減するために提案されている。
本稿では,単意味性に関する基礎モデルに対して,SAEを初めて体系的に評価する。
論文 参考訳(メタデータ) (2025-08-20T22:08:01Z) - A Stable Whitening Optimizer for Efficient Neural Network Training [101.89246340672246]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。
まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。
第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。
第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文 参考訳(メタデータ) (2025-06-08T18:43:31Z) - Purifying Shampoo: Investigating Shampoo's Heuristics by Decomposing its Preconditioner [22.81536065294916]
計算コンテストにおけるShampooの最近の成功Perfは、ニューラルネットワークのトレーニングのためのKroneckerfactorizationベースの最適化アルゴリズムに新たな関心を喚起した。
我々は,Adamからのグラフトは,プレコンディショナーの固有値の安定化と誤算を直接緩和し,その固有値の修正によって学習速度のグラフトの必要性を排除できることを示す。
論文 参考訳(メタデータ) (2025-06-04T05:55:41Z) - SOAP: Improving and Stabilizing Shampoo using Adam [10.191020824781756]
この研究はシャンプーとアダファクトの間の公式な関係を確立している。
AdafactorはAdamのメモリ効率の近似である。
シャンプーのプレコンディショナーの固有ベイズにおいて,シャンプーがAdafactorを実行することと等価であることを示す。
論文 参考訳(メタデータ) (2024-09-17T16:18:05Z) - A New Perspective on Shampoo's Preconditioner [15.817248348533353]
2階最適化アルゴリズムであるShampooは最近、機械学習コミュニティからの注目を集めている。
我々は、これらの行列の $textit$ Kronecker 積近似と Shampoo による近似との明示的で斬新な接続を提供する。
さまざまなデータセットで、最適なKronecker製品近似に近いことを実証的に実証する。
論文 参考訳(メタデータ) (2024-06-25T17:34:51Z) - Towards Communication-efficient Federated Learning via Sparse and Aligned Adaptive Optimization [65.85963235502322]
Federated Adam (FedAdam) アルゴリズムはアップリンク通信オーバーヘッドの3倍の増大に悩まされている。
我々はFedAdam-SSMと呼ばれる新しいスパースなFedAdamアルゴリズムを提案する。
我々は,FedAdam-SSMが訓練したモデルと集中型Adamの差異を最小化することにより,スペーシフィケーションエラーによる学習性能劣化を軽減するためにSSMを最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:56:49Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。