論文の概要: Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization
- arxiv url: http://arxiv.org/abs/2509.03378v2
- Date: Tue, 30 Sep 2025 03:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 21:59:07.544987
- Title: Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization
- Title(参考訳): Kullback-Leibler の最小化による Shampoo と SOAP の理解と改善
- Authors: Wu Lin, Scott C. Lowe, Felix Dangel, Runa Eschenhagen, Zikun Xu, Roger B. Grosse,
- Abstract要約: 第2モーメントと共分散行列の自然な対応により、シャンプーとSOAPの推定手順を再解釈する。
本稿では,各種NNの事前学習において,シャンプーとSOAPの性能に適合する実測手法を提案する。
特に、KL-Shampooは優れたパフォーマンスを達成するためにAdamに依存していないため、関連するメモリオーバーヘッドを回避することができる。
- 参考スコア(独自算出の注目度): 22.631895671087534
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Shampoo and its efficient variant, SOAP, use structured second-moment estimation and have attracted growing interest for their effectiveness in training neural networks (NNs). In practice, Shampoo requires step-size grafting with Adam to achieve competitive performance. SOAP mitigates this by applying Adam in Shampoo's eigenbasis and further reducing per-iteration runtime. However, reliance on Adam introduces additional memory overhead in both methods. Prior theoretical interpretations have primarily examined their estimation schemes using the Frobenius norm. Motivated by the natural correspondence between the second moment and a covariance matrix, we reinterpret the estimation procedures in Shampoo and SOAP as instances of covariance estimation through the lens of Kullback-Leibler (KL) divergence minimization. This perspective reveals a previously overlooked theoretical limitation and motivates principled improvements to their design. Building on the KL perspective, we propose practical estimation schemes -- $\textbf{KL-Shampoo}$ and $\textbf{KL-SOAP}$ -- that match or exceed the performance of Shampoo and SOAP for pre-training various NNs while maintaining SOAP-level per-iteration runtime. Notably, KL-Shampoo does not rely on Adam to achieve superior performance, thereby avoiding the associated memory overhead. Surprisingly, KL-Shampoo consistently outperforms the other methods in our experiments.
- Abstract(参考訳): Shampooとその効率的な変種であるSOAPは構造化された第2モーメント推定を使用しており、ニューラルネットワーク(NN)のトレーニングにおける有効性に対する関心が高まっている。
実際には、シャンプーは競争的なパフォーマンスを達成するためにアダムとステップサイズのグラフトを必要とする。
SOAPは、Shmpooの固有ベイズにAdamを適用することでこれを緩和し、また、イテレーション毎のランタイムをさらに削減します。
しかし、Adamへの依存は両方のメソッドにメモリオーバーヘッドを追加する。
以前の理論的解釈はフロベニウスノルムを用いてそれらの推定スキームを主に検討してきた。
第2モーメントと共分散行列の自然な対応により、我々は、KL(Kulback-Leibler)の発散最小化による共分散推定の事例として、シャンプーとSOAPの推定手順を再解釈する。
この視点は、これまで見過ごされていた理論上の限界を明らかにし、設計の原則的な改善を動機付けている。
KLの観点から、我々は、様々なNNを事前トレーニングし、SOAPレベルのイテレーションランタイムを維持しながら、ShampooとSOAPのパフォーマンスを一致させる、実践的な推定スキーム -- $\textbf{KL-SOAP}$と$\textbf{KL-SOAP}$ -- を提案する。
特に、KL-Shampooは優れたパフォーマンスを達成するためにAdamに依存していないため、関連するメモリオーバーヘッドを回避することができる。
驚くべきことに、KL-Shampooは我々の実験で他の方法よりも一貫して優れています。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization [25.504794432255306]
拡散言語モデル(DLMs)は、反復的洗練を伴う並列で順序に依存しない生成を可能にする。
強化学習の微調整をDLMに適用することは、難易度が高いため、未解決の課題である。
DLMに適した新しいRLアルゴリズムである textbfGroup Diffusion Policy Optimization (GDPO) を導入する。
論文 参考訳(メタデータ) (2025-10-09T17:58:07Z) - Understanding SOAP from the Perspective of Gradient Whitening [1.5930654066091687]
我々は勾配の白化の観点からAdam、Shampoo、SOAPを分析します。
Kronecker の製品仮定の下で,SOAP と Shampoo の理想的なバージョン間の理論的等価性を確立する。
以上の結果から,SOAP は Shampoo と同様の収束率を示し,最終的な損失において Adam と Shampoo の双方に対して有意な優位性は得られなかった。
論文 参考訳(メタデータ) (2025-09-26T21:13:02Z) - EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z) - Evaluating Sparse Autoencoders for Monosemantic Representation [7.46972338257749]
大きな言語モデルを解釈する鍵となる障壁は多意味性(polysemanticity)であり、ニューロンは複数の無関係な概念を活性化する。
スパースオートエンコーダ(SAE)は、高密度なアクティベーションをよりスパースで解釈可能な特徴に変換することでこの問題を軽減するために提案されている。
本稿では,単意味性に関する基礎モデルに対して,SAEを初めて体系的に評価する。
論文 参考訳(メタデータ) (2025-08-20T22:08:01Z) - A Stable Whitening Optimizer for Efficient Neural Network Training [101.89246340672246]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。
まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。
第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。
第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文 参考訳(メタデータ) (2025-06-08T18:43:31Z) - Purifying Shampoo: Investigating Shampoo's Heuristics by Decomposing its Preconditioner [22.81536065294916]
計算コンテストにおけるShampooの最近の成功Perfは、ニューラルネットワークのトレーニングのためのKroneckerfactorizationベースの最適化アルゴリズムに新たな関心を喚起した。
我々は,Adamからのグラフトは,プレコンディショナーの固有値の安定化と誤算を直接緩和し,その固有値の修正によって学習速度のグラフトの必要性を排除できることを示す。
論文 参考訳(メタデータ) (2025-06-04T05:55:41Z) - Head-Tail-Aware KL Divergence in Knowledge Distillation for Spiking Neural Networks [4.943844247308908]
エネルギー効率のよい計算手法としてスパイキングニューラルネットワーク(SNN)が登場している。
SNNは、ニューラルネットワーク(ANN)と比較して、しばしばパフォーマンスギャップを示す
論文 参考訳(メタデータ) (2025-04-29T05:36:32Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Scalable DP-SGD: Shuffling vs. Poisson Subsampling [61.19794019914523]
バッチサンプリングをシャッフルしたマルチエポック適応線形クエリ(ABLQ)機構のプライバシ保証に対する新たな下位境界を提供する。
ポアソンのサブサンプリングと比較すると大きな差がみられ, 以前の分析は1つのエポックに限られていた。
本稿では,大規模な並列計算を用いて,Poissonサブサンプリングを大規模に実装する実践的手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T19:06:16Z) - SOAP: Improving and Stabilizing Shampoo using Adam [10.191020824781756]
この研究はシャンプーとアダファクトの間の公式な関係を確立している。
AdafactorはAdamのメモリ効率の近似である。
シャンプーのプレコンディショナーの固有ベイズにおいて,シャンプーがAdafactorを実行することと等価であることを示す。
論文 参考訳(メタデータ) (2024-09-17T16:18:05Z) - A New Perspective on Shampoo's Preconditioner [15.817248348533353]
2階最適化アルゴリズムであるShampooは最近、機械学習コミュニティからの注目を集めている。
我々は、これらの行列の $textit$ Kronecker 積近似と Shampoo による近似との明示的で斬新な接続を提供する。
さまざまなデータセットで、最適なKronecker製品近似に近いことを実証的に実証する。
論文 参考訳(メタデータ) (2024-06-25T17:34:51Z) - Towards Communication-efficient Federated Learning via Sparse and Aligned Adaptive Optimization [65.85963235502322]
Federated Adam (FedAdam) アルゴリズムはアップリンク通信オーバーヘッドの3倍の増大に悩まされている。
我々はFedAdam-SSMと呼ばれる新しいスパースなFedAdamアルゴリズムを提案する。
我々は,FedAdam-SSMが訓練したモデルと集中型Adamの差異を最小化することにより,スペーシフィケーションエラーによる学習性能劣化を軽減するためにSSMを最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:56:49Z) - Regression-Oriented Knowledge Distillation for Lightweight Ship
Orientation Angle Prediction with Optical Remote Sensing Images [11.466933077766052]
光リモートセンシング画像を用いた船舶方位角予測(SOAP)は重要な画像処理課題である。
本稿では、予測精度を損なうことなく、SOAPモデルのモデルサイズと計算コストを削減できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T05:36:19Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。