論文の概要: Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization
- arxiv url: http://arxiv.org/abs/2509.03378v4
- Date: Sun, 02 Nov 2025 20:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 20:19:58.500676
- Title: Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization
- Title(参考訳): Kullback-Leibler の最小化による Shampoo と SOAP の理解と改善
- Authors: Wu Lin, Scott C. Lowe, Felix Dangel, Runa Eschenhagen, Zikun Xu, Roger B. Grosse,
- Abstract要約: 私たちは、SOAPレベル/イットランタイムを達成しながら、事前トレーニングにおいて、ShampooとSOAPのパフォーマンスに適合または超過するスキームを開発します。
KL-Shampooは一貫してSOAP、Shampoo、さらにはKL-SOAPよりも優れており、NN最適化における構造化メソッドを設計するための魅力的な基盤としてKLベースのアプローチを確立している。
- 参考スコア(独自算出の注目度): 22.631895671087534
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Shampoo and its efficient variant, SOAP, employ structured second-moment estimations and have shown strong performance for training neural networks (NNs). In practice, however, Shampoo typically requires step-size grafting with Adam to be competitive, and SOAP mitigates this by applying Adam in Shampoo's eigenbasis -- at the cost of additional memory overhead from Adam in both methods. Prior analyses have largely relied on the Frobenius norm to motivate these estimation schemes. We instead recast their estimation procedures as covariance estimation under Kullback-Leibler (KL) divergence minimization, revealing a previously overlooked theoretical limitation and motivating principled redesigns. Building on this perspective, we develop $\textbf{KL-Shampoo}$ and $\textbf{KL-SOAP}$, practical schemes that match or exceed the performance of Shampoo and SOAP in NN pre-training while achieving SOAP-level per-iteration runtime. Notably, KL-Shampoo does not rely on Adam to attain competitive performance, eliminating the memory overhead introduced by Adam. Across our experiments, KL-Shampoo consistently outperforms SOAP, Shampoo, and even KL-SOAP, establishing the KL-based approach as a compelling foundation for designing structured methods in NN optimization.
- Abstract(参考訳): Shampooとその効率的な変種であるSOAPは構造化第2モーメント推定を採用し、ニューラルネットワーク(NN)のトレーニングに強いパフォーマンスを示している。
しかし実際には、SOAPはAdamをシャンプーの固有ベイジに適用することで、両方の方法でAdamから追加のメモリオーバーヘッドを犠牲にして、これを緩和します。
以前の分析は、これらの推定スキームを動機付けるためにフロベニウスノルムに大きく依存していた。
代わりに、KL(Kullback-Leibler)の発散最小化の下で、それらの推定手順を共分散推定として再放送し、これまで見過ごされていた理論的制限と、原則化された再設計の動機を明らかにした。
この観点で、我々は、NNの事前トレーニングでShampooとSOAPのパフォーマンスに適合または超過する実践的なスキームである$\textbf{KL-SOAP}$と$\textbf{KL-SOAP}$を開発し、SOAPレベルの設定ランタイムを実現します。
特にKL-Shampooは、Adamが導入したメモリオーバーヘッドをなくし、競争性能を達成するためにAdamを頼りにしていない。
我々の実験全体で、KL-Shampooは一貫してSOAP、Shampoo、さらにはKL-SOAPよりも優れており、NN最適化における構造化メソッドを設計するための魅力的な基盤としてKLベースのアプローチを確立しています。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization [25.504794432255306]
拡散言語モデル(DLMs)は、反復的洗練を伴う並列で順序に依存しない生成を可能にする。
強化学習の微調整をDLMに適用することは、難易度が高いため、未解決の課題である。
DLMに適した新しいRLアルゴリズムである textbfGroup Diffusion Policy Optimization (GDPO) を導入する。
論文 参考訳(メタデータ) (2025-10-09T17:58:07Z) - Understanding SOAP from the Perspective of Gradient Whitening [1.5930654066091687]
我々は勾配の白化の観点からAdam、Shampoo、SOAPを分析します。
Kronecker の製品仮定の下で,SOAP と Shampoo の理想的なバージョン間の理論的等価性を確立する。
以上の結果から,SOAP は Shampoo と同様の収束率を示し,最終的な損失において Adam と Shampoo の双方に対して有意な優位性は得られなかった。
論文 参考訳(メタデータ) (2025-09-26T21:13:02Z) - EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z) - Evaluating Sparse Autoencoders for Monosemantic Representation [7.46972338257749]
大きな言語モデルを解釈する鍵となる障壁は多意味性(polysemanticity)であり、ニューロンは複数の無関係な概念を活性化する。
スパースオートエンコーダ(SAE)は、高密度なアクティベーションをよりスパースで解釈可能な特徴に変換することでこの問題を軽減するために提案されている。
本稿では,単意味性に関する基礎モデルに対して,SAEを初めて体系的に評価する。
論文 参考訳(メタデータ) (2025-08-20T22:08:01Z) - A Stable Whitening Optimizer for Efficient Neural Network Training [101.89246340672246]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。
まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。
第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。
第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文 参考訳(メタデータ) (2025-06-08T18:43:31Z) - Purifying Shampoo: Investigating Shampoo's Heuristics by Decomposing its Preconditioner [22.81536065294916]
計算コンテストにおけるShampooの最近の成功Perfは、ニューラルネットワークのトレーニングのためのKroneckerfactorizationベースの最適化アルゴリズムに新たな関心を喚起した。
我々は,Adamからのグラフトは,プレコンディショナーの固有値の安定化と誤算を直接緩和し,その固有値の修正によって学習速度のグラフトの必要性を排除できることを示す。
論文 参考訳(メタデータ) (2025-06-04T05:55:41Z) - Head-Tail-Aware KL Divergence in Knowledge Distillation for Spiking Neural Networks [4.943844247308908]
エネルギー効率のよい計算手法としてスパイキングニューラルネットワーク(SNN)が登場している。
SNNは、ニューラルネットワーク(ANN)と比較して、しばしばパフォーマンスギャップを示す
論文 参考訳(メタデータ) (2025-04-29T05:36:32Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Scalable DP-SGD: Shuffling vs. Poisson Subsampling [61.19794019914523]
バッチサンプリングをシャッフルしたマルチエポック適応線形クエリ(ABLQ)機構のプライバシ保証に対する新たな下位境界を提供する。
ポアソンのサブサンプリングと比較すると大きな差がみられ, 以前の分析は1つのエポックに限られていた。
本稿では,大規模な並列計算を用いて,Poissonサブサンプリングを大規模に実装する実践的手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T19:06:16Z) - SOAP: Improving and Stabilizing Shampoo using Adam [10.191020824781756]
この研究はシャンプーとアダファクトの間の公式な関係を確立している。
AdafactorはAdamのメモリ効率の近似である。
シャンプーのプレコンディショナーの固有ベイズにおいて,シャンプーがAdafactorを実行することと等価であることを示す。
論文 参考訳(メタデータ) (2024-09-17T16:18:05Z) - A New Perspective on Shampoo's Preconditioner [15.817248348533353]
2階最適化アルゴリズムであるShampooは最近、機械学習コミュニティからの注目を集めている。
我々は、これらの行列の $textit$ Kronecker 積近似と Shampoo による近似との明示的で斬新な接続を提供する。
さまざまなデータセットで、最適なKronecker製品近似に近いことを実証的に実証する。
論文 参考訳(メタデータ) (2024-06-25T17:34:51Z) - Towards Communication-efficient Federated Learning via Sparse and Aligned Adaptive Optimization [65.85963235502322]
Federated Adam (FedAdam) アルゴリズムはアップリンク通信オーバーヘッドの3倍の増大に悩まされている。
我々はFedAdam-SSMと呼ばれる新しいスパースなFedAdamアルゴリズムを提案する。
我々は,FedAdam-SSMが訓練したモデルと集中型Adamの差異を最小化することにより,スペーシフィケーションエラーによる学習性能劣化を軽減するためにSSMを最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:56:49Z) - Regression-Oriented Knowledge Distillation for Lightweight Ship
Orientation Angle Prediction with Optical Remote Sensing Images [11.466933077766052]
光リモートセンシング画像を用いた船舶方位角予測(SOAP)は重要な画像処理課題である。
本稿では、予測精度を損なうことなく、SOAPモデルのモデルサイズと計算コストを削減できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T05:36:19Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。