論文の概要: A New Perspective on Shampoo's Preconditioner
- arxiv url: http://arxiv.org/abs/2406.17748v1
- Date: Tue, 25 Jun 2024 17:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:21:40.388070
- Title: A New Perspective on Shampoo's Preconditioner
- Title(参考訳): シャンプープレコンディショナーの新展開
- Authors: Depen Morwani, Itai Shapira, Nikhil Vyas, Eran Malach, Sham Kakade, Lucas Janson,
- Abstract要約: 2階最適化アルゴリズムであるShampooは最近、機械学習コミュニティからの注目を集めている。
我々は、これらの行列の $textit$ Kronecker 積近似と Shampoo による近似との明示的で斬新な接続を提供する。
さまざまなデータセットで、最適なKronecker製品近似に近いことを実証的に実証する。
- 参考スコア(独自算出の注目度): 15.817248348533353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shampoo, a second-order optimization algorithm which uses a Kronecker product preconditioner, has recently garnered increasing attention from the machine learning community. The preconditioner used by Shampoo can be viewed either as an approximation of the Gauss--Newton component of the Hessian or the covariance matrix of the gradients maintained by Adagrad. We provide an explicit and novel connection between the $\textit{optimal}$ Kronecker product approximation of these matrices and the approximation made by Shampoo. Our connection highlights a subtle but common misconception about Shampoo's approximation. In particular, the $\textit{square}$ of the approximation used by the Shampoo optimizer is equivalent to a single step of the power iteration algorithm for computing the aforementioned optimal Kronecker product approximation. Across a variety of datasets and architectures we empirically demonstrate that this is close to the optimal Kronecker product approximation. Additionally, for the Hessian approximation viewpoint, we empirically study the impact of various practical tricks to make Shampoo more computationally efficient (such as using the batch gradient and the empirical Fisher) on the quality of Hessian approximation.
- Abstract(参考訳): Kronecker製品プレコンディショナーを使用する2階最適化アルゴリズムであるShampooは先頃、マシンラーニングコミュニティから注目を集めている。
シャンプーが用いるプレコンディショナーは、ヘッセンのガウス-ニュートン成分の近似、あるいはアダグラードが維持する勾配の共分散行列の近似と見なすことができる。
これらの行列の Kronecker 積近似と Shampoo の近似との明示的で斬新な接続を提供する。
私たちのつながりはシャンプーの近似に関する微妙だが一般的な誤解を浮き彫りにしている。
特に、シャンプーオプティマイザが使用する近似の$\textit{square}$は、上記の最適クロネッカー積近似を計算するための電力反復アルゴリズムの1ステップに相当する。
さまざまなデータセットやアーキテクチャにわたって、私たちは、これが最適なKronecker製品近似に近いことを実証的に示しています。
さらに, ヘッセン近似の観点からは, シャンプーの計算効率を高めるための様々な実践的手法(バッチ勾配や経験的フィッシャーなど)がヘッセン近似の品質に与える影響を実証的に検討する。
関連論文リスト
- Optimal Guarantees for Algorithmic Reproducibility and Gradient
Complexity in Convex Optimization [55.115992622028685]
以前の研究は、一階法はより良い収束率(漸進収束率)をトレードオフする必要があることを示唆している。
最適複雑性と準最適収束保証の両方を、滑らかな凸最小化と滑らかな凸最小化問題に対して達成できることを実証する。
論文 参考訳(メタデータ) (2023-10-26T19:56:52Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Maximal Volume Matrix Cross Approximation for Image Compression and
Least Squares Solution [0.0]
最大体積サブマトリクスに基づく行列の古典的クロス近似について検討する。
本研究の主な成果は,行列クロス近似の古典的推定法の改善と,最大体積サブマトリクスを求めるための欲求的アプローチである。
論文 参考訳(メタデータ) (2023-09-29T17:04:06Z) - KrADagrad: Kronecker Approximation-Domination Gradient Preconditioned
Stochastic Optimization [69.47358238222586]
第2の順序付けにより、パラメータのステップサイズと方向を変更でき、損失曲率に適応できる。
最近、シャンプーはこれらの要求を減らすためにクローネッカーファクター付きプレコンディショナーを導入した。
不条件行列の逆行列根を取る。
これは64ビットの精度が必要で、ハードウェアの制約が強い。
論文 参考訳(メタデータ) (2023-05-30T21:15:45Z) - Variational sparse inverse Cholesky approximation for latent Gaussian
processes via double Kullback-Leibler minimization [6.012173616364571]
後肢の変分近似とSIC制限したKulback-Leibler-Optimal近似を併用した。
この設定のために、我々の変分近似は反復毎の多対数時間で勾配降下によって計算できる。
本稿では,DKLGP(Double-Kullback-Leibler-Optimal Gaussian-process approximation)を提案する。
論文 参考訳(メタデータ) (2023-01-30T21:50:08Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Efficient approximation of experimental Gaussian boson sampling [2.805766654291013]
最近の2つの目覚しい実験は、最大144個の出力モードで、プログラム不可能な線形干渉計としきい値検出器を備えたガウスボソンサンプリング(GBS)を行った。
ここでは、これらの実験よりも全変動距離とクルバック・リーブラーの偏差がよい古典的なサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-23T17:47:06Z) - A Scalable Second Order Method for Ill-Conditioned Matrix Completion
from Few Samples [0.0]
低ランク行列補完のための反復アルゴリズムを提案する。
ほとんどサンプルから最大10ドルの条件数で、非常に不調な行列を完遂することができる。
論文 参考訳(メタデータ) (2021-06-03T20:31:00Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Two-Level K-FAC Preconditioning for Deep Learning [7.699428789159717]
ディープラーニングの文脈では、グラディエントDescentの収束を加速するために、多くの最適化手法が勾配共分散情報を使用する。
特に、アダグラード(Adagrad)から始まり、一見無限に現れる研究のラインは、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。
特に成功した方法はK-FAC(Kronecker-ed block-factored preconditioner)と呼ばれる方法である。
論文 参考訳(メタデータ) (2020-11-01T17:54:21Z) - Optimization of Graph Total Variation via Active-Set-based Combinatorial
Reconditioning [48.42916680063503]
本稿では,この問題クラスにおける近位アルゴリズムの適応型事前条件付け手法を提案する。
不活性エッジのネスト・フォレスト分解により局所収束速度が保証されることを示す。
この結果から,局所収束解析は近似アルゴリズムにおける可変指標選択の指針となることが示唆された。
論文 参考訳(メタデータ) (2020-02-27T16:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。