論文の概要: Purifying Shampoo: Investigating Shampoo's Heuristics by Decomposing its Preconditioner
- arxiv url: http://arxiv.org/abs/2506.03595v1
- Date: Wed, 04 Jun 2025 05:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.175574
- Title: Purifying Shampoo: Investigating Shampoo's Heuristics by Decomposing its Preconditioner
- Title(参考訳): シャンプーの浄化 : プリコンディショナーの分解によるシャンプーのヒューリスティックスの調査
- Authors: Runa Eschenhagen, Aaron Defazio, Tsung-Hsien Lee, Richard E. Turner, Hao-Jun Michael Shi,
- Abstract要約: 計算コンテストにおけるShampooの最近の成功Perfは、ニューラルネットワークのトレーニングのためのKroneckerfactorizationベースの最適化アルゴリズムに新たな関心を喚起した。
我々は,Adamからのグラフトは,プレコンディショナーの固有値の安定化と誤算を直接緩和し,その固有値の修正によって学習速度のグラフトの必要性を排除できることを示す。
- 参考スコア(独自算出の注目度): 22.81536065294916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of Shampoo in the AlgoPerf contest has sparked renewed interest in Kronecker-factorization-based optimization algorithms for training neural networks. Despite its success, Shampoo relies heavily on several heuristics such as learning rate grafting and stale preconditioning to achieve performance at-scale. These heuristics increase algorithmic complexity, necessitate further hyperparameter tuning, and lack theoretical justification. This paper investigates these heuristics from the angle of Frobenius norm approximation to full-matrix Adam and decouples the preconditioner's eigenvalues and eigenbasis updates. We show that grafting from Adam mitigates the staleness and mis-scaling of the preconditioner's eigenvalues and how correcting the eigenvalues directly can eliminate the need for learning rate grafting. To manage the error induced by infrequent eigenbasis computations, we propose an adaptive criterion for determining the eigenbasis computation frequency motivated by terminating a warm-started QR algorithm. This criterion decouples the update frequency of different preconditioner matrices and enables us to investigate the impact of approximation error on convergence. These practical techniques offer a principled angle towards removing Shampoo's heuristics and developing improved Kronecker-factorization-based training algorithms.
- Abstract(参考訳): AlgoPerfコンテストにおけるShampooの成功は、ニューラルネットワークのトレーニングのためのKronecker-factorizationベースの最適化アルゴリズムへの新たな関心を呼び起こした。
その成功にもかかわらず、シャンプーは大規模なパフォーマンスを達成するために、学習率のグラフトや古いプレコンディショニングなどのいくつかのヒューリスティックに大きく依存している。
これらのヒューリスティックはアルゴリズムの複雑さを高め、さらなるハイパーパラメータチューニングを必要とし、理論的な正当化を欠いている。
本稿では,Frobeniusノルム近似からフル行列Adamへの角度からのこれらのヒューリスティックスについて検討し,プレコンディショナーの固有値と固有値の更新を分離する。
我々は,Adamからのグラフトは,プレコンディショナーの固有値の安定度と誤スケーリングを軽減し,固有値を直接修正する方法が学習速度グラフトの必要性をなくすことを示した。
頻繁な固有ベイジ計算によって引き起こされる誤差を管理するために,暖かくスタートしたQRアルゴリズムを終了させることによって動機付けられた固有ベイジ計算周波数を決定する適応的基準を提案する。
この基準は、異なるプレコンディショナリ行列の更新頻度を分離し、近似誤差が収束に与える影響を調べることができる。
これらの実践的手法は、シャンプーのヒューリスティックを除去し、改良されたクロネッカー分解に基づくトレーニングアルゴリズムを開発するための原則的な角度を提供する。
関連論文リスト
- An Accelerated Alternating Partial Bregman Algorithm for ReLU-based Matrix Decomposition [0.0]
本稿では,非負行列上に補正されたスパース低ランク特性について検討する。
本稿では,クラスタリングと圧縮タスクに有用な構造を取り入れた新しい正規化項を提案する。
我々は、任意の$Lge 1$に対して常に持つ$L$-smoothプロパティを維持しながら、対応する閉形式解を導出する。
論文 参考訳(メタデータ) (2025-03-04T08:20:34Z) - Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Learning incomplete factorization preconditioners for GMRES [1.1519724914285523]
行列分解を直接近似するためにグラフニューラルネットワークを訓練する。
グラフニューラルネットワークアーキテクチャを適用することで、出力自体がスパースであることを保証することができます。
GMRESの繰り返し回数を減らし、合成データに対するスペクトル特性を改善する効果を示す。
論文 参考訳(メタデータ) (2024-09-12T17:55:44Z) - Neural Network-Based Score Estimation in Diffusion Models: Optimization
and Generalization [12.812942188697326]
拡散モデルは、忠実さ、柔軟性、堅牢性を改善した高品質なサンプルを生成する際に、GANと競合する強力なツールとして登場した。
これらのモデルの主要な構成要素は、スコアマッチングを通じてスコア関数を学ぶことである。
様々なタスクにおいて経験的な成功にもかかわらず、勾配に基づくアルゴリズムが証明可能な精度でスコア関数を学習できるかどうかは不明である。
論文 参考訳(メタデータ) (2024-01-28T08:13:56Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - A Deep Unrolling Model with Hybrid Optimization Structure for Hyperspectral Image Deconvolution [50.13564338607482]
本稿では,DeepMixと呼ばれるハイパースペクトルデコンボリューション問題に対する新しい最適化フレームワークを提案する。
これは3つの異なるモジュール、すなわちデータ一貫性モジュール、手作りの正規化器の効果を強制するモジュール、および装飾モジュールで構成されている。
本研究は,他のモジュールの協調作業によって達成される進歩を維持するために設計された,文脈を考慮した認知型モジュールを提案する。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram
Iteration [122.51142131506639]
循環行列理論を用いて畳み込み層のスペクトルノルムに対して、精密で高速で微分可能な上界を導入する。
提案手法は, 精度, 計算コスト, スケーラビリティの観点から, 他の最先端手法よりも優れていることを示す。
これは畳み込みニューラルネットワークのリプシッツ正則化に非常に効果的であり、並行アプローチに対する競合的な結果である。
論文 参考訳(メタデータ) (2023-05-25T15:32:21Z) - Neural incomplete factorization: learning preconditioners for the conjugate gradient method [2.899792823251184]
我々は、効率的なプレコンディショナーの生成を加速するためのデータ駆動型アプローチを開発する。
一般的に手動のプリコンディショナーをグラフニューラルネットワークの出力に置き換える。
本手法は, 行列の不完全分解を発生させ, 神経不完全分解(NeuralIF)と呼ばれる。
論文 参考訳(メタデータ) (2023-05-25T11:45:46Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - A Scalable, Adaptive and Sound Nonconvex Regularizer for Low-rank Matrix
Completion [60.52730146391456]
そこで我々は,適応的かつ音質の高い"核フロベニウスノルム"と呼ばれる新しい非スケーラブルな低ランク正規化器を提案する。
特異値の計算をバイパスし、アルゴリズムによる高速な最適化を可能にする。
既存の行列学習手法では最速でありながら、最先端の回復性能が得られる。
論文 参考訳(メタデータ) (2020-08-14T18:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。