論文の概要: Understanding SOAP from the Perspective of Gradient Whitening
- arxiv url: http://arxiv.org/abs/2509.22938v1
- Date: Fri, 26 Sep 2025 21:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.944184
- Title: Understanding SOAP from the Perspective of Gradient Whitening
- Title(参考訳): グラディエント・ホワイトニングの観点からSOAPを理解する
- Authors: Yanqing Lu, Letao Wang, Jinbo Liu,
- Abstract要約: 我々は勾配の白化の観点からAdam、Shampoo、SOAPを分析します。
Kronecker の製品仮定の下で,SOAP と Shampoo の理想的なバージョン間の理論的等価性を確立する。
以上の結果から,SOAP は Shampoo と同様の収束率を示し,最終的な損失において Adam と Shampoo の双方に対して有意な優位性は得られなかった。
- 参考スコア(独自算出の注目度): 1.5930654066091687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shampoo with Adam in the Preconditioner's eigenbasis (SOAP) has recently emerged as a promising optimization algorithm for neural network training, achieving superior training efficiency over both Adam and Shampoo in language modeling tasks. In this work, we analyze Adam, Shampoo, and SOAP from the perspective of gradient whitening, interpreting their preconditioners as approximations to the whitening matrix, which captures second-order curvature information. We further establish a theoretical equivalence between idealized versions of SOAP and Shampoo under the Kronecker product assumption. To empirically evaluate these insights, we reproduce the language modeling experiments using nanoGPT and grayscale image colorization. Our results show that SOAP exhibits similar convergence rate as Shampoo, and no significant advantage over both Adam and Shampoo in the final loss achieved, which aligns with their equivalence in theory.
- Abstract(参考訳): プレコンディショナーの固有ベイシ(SOAP)におけるAdamとのシャンプーは、最近、ニューラルネットワークトレーニングのための有望な最適化アルゴリズムとして登場し、言語モデリングタスクにおいてAdamとSampooよりも優れたトレーニング効率を実現している。
本研究では、勾配のホワイトニングの観点からAdam、Shampoo、SOAPを分析し、プレコンディショナーをホワイトニング行列の近似として解釈し、2階の曲率情報をキャプチャする。
さらに、Kronecker の製品仮定の下で、SOAP と Shampoo の理想的なバージョン間の理論的等価性を確立します。
これらの知見を実証的に評価するために,ナノGPTとグレースケール画像のカラー化を用いた言語モデリング実験を再現した。
以上の結果から,SOAP はシャンプーと類似の収束率を示し,Adam とシャンプーの両者が最終損失で有意な優位性を示した。
関連論文リスト
- Understanding and Improving the Shampoo Optimizer via Kullback-Leibler Minimization [22.631895671087534]
クルバック・リーブラー (KL) 最小化レンズを用いてシャンプーの推定を共分散推定として検討した。
我々は,安定化のために,シャンプーがアダムに頼っていることを排除し,実践的な推定手法であるKL-シャンプーを開発した。
予備的な結果は、KL-ShampooがShampooのパフォーマンスを改善し、Adamなしで安定させ、ニューラルネットワークの事前トレーニングにおいてAdam安定化版であるSOAPよりも優れていることを示している。
論文 参考訳(メタデータ) (2025-09-03T14:55:15Z) - SOAP: Improving and Stabilizing Shampoo using Adam [10.191020824781756]
この研究はシャンプーとアダファクトの間の公式な関係を確立している。
AdafactorはAdamのメモリ効率の近似である。
シャンプーのプレコンディショナーの固有ベイズにおいて,シャンプーがAdafactorを実行することと等価であることを示す。
論文 参考訳(メタデータ) (2024-09-17T16:18:05Z) - A New Perspective on Shampoo's Preconditioner [15.817248348533353]
2階最適化アルゴリズムであるShampooは最近、機械学習コミュニティからの注目を集めている。
我々は、これらの行列の $textit$ Kronecker 積近似と Shampoo による近似との明示的で斬新な接続を提供する。
さまざまなデータセットで、最適なKronecker製品近似に近いことを実証的に実証する。
論文 参考訳(メタデータ) (2024-06-25T17:34:51Z) - Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint
Method [110.9458914721516]
本研究では,2つの段階の勾配誘導を算出したSymphlectic Adjoint Guidance (SAG)を提案する。
SAGは、ガイド画像およびビデオ生成タスクのベースラインと比較して画質の高い画像を生成する。
論文 参考訳(メタデータ) (2023-12-19T10:30:31Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Loss function based second-order Jensen inequality and its application
to particle variational inference [112.58907653042317]
粒子変分推論(PVI)は、後部分布の実験的近似としてモデルのアンサンブルを用いる。
PVIは、最適化されたモデルの多様性を保証するために、各モデルを反発力で反復的に更新する。
我々は,新たな一般化誤差を導出し,モデルの多様性を高めて低減できることを示す。
論文 参考訳(メタデータ) (2021-06-09T12:13:51Z) - An Investigation into the Stochasticity of Batch Whitening [95.54842420166862]
本稿では,より一般的なBatch Whitening(BW)手術について検討する。
様々なホワイトニング変換が条件付けを同等に改善する一方で,識別シナリオやGAN(Generative Adrial Networks)のトレーニングにおいて,異なる挙動を示すことが示されている。
提案するBWアルゴリズムは、ImageNetversaityにおいて、残余ネットワークを著しく改善する。
論文 参考訳(メタデータ) (2020-03-27T11:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。