論文の概要: KrADagrad: Kronecker Approximation-Domination Gradient Preconditioned
Stochastic Optimization
- arxiv url: http://arxiv.org/abs/2305.19416v1
- Date: Tue, 30 May 2023 21:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:25:09.544417
- Title: KrADagrad: Kronecker Approximation-Domination Gradient Preconditioned
Stochastic Optimization
- Title(参考訳): kradagrad: クロネッカー近似ドーミネーション勾配事前条件付き確率最適化
- Authors: Jonathan Mei, Alexander Moreno, Luke Walters
- Abstract要約: 第2の順序付けにより、パラメータのステップサイズと方向を変更でき、損失曲率に適応できる。
最近、シャンプーはこれらの要求を減らすためにクローネッカーファクター付きプレコンディショナーを導入した。
不条件行列の逆行列根を取る。
これは64ビットの精度が必要で、ハードウェアの制約が強い。
- 参考スコア(独自算出の注目度): 69.47358238222586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Second order stochastic optimizers allow parameter update step size and
direction to adapt to loss curvature, but have traditionally required too much
memory and compute for deep learning. Recently, Shampoo [Gupta et al., 2018]
introduced a Kronecker factored preconditioner to reduce these requirements: it
is used for large deep models [Anil et al., 2020] and in production [Anil et
al., 2022]. However, it takes inverse matrix roots of ill-conditioned matrices.
This requires 64-bit precision, imposing strong hardware constraints. In this
paper, we propose a novel factorization, Kronecker Approximation-Domination
(KrAD). Using KrAD, we update a matrix that directly approximates the inverse
empirical Fisher matrix (like full matrix AdaGrad), avoiding inversion and
hence 64-bit precision. We then propose KrADagrad$^\star$, with similar
computational costs to Shampoo and the same regret. Synthetic ill-conditioned
experiments show improved performance over Shampoo for 32-bit precision, while
for several real datasets we have comparable or better generalization.
- Abstract(参考訳): 第二次確率最適化器は、パラメータ更新ステップのサイズと方向を損失曲率に適応させるが、伝統的に深層学習にはメモリ量と計算量が必要だった。
最近、shampoo [gupta et al., 2018] は、これらの要件を減らすために、クロネッカー因子付きプリコンディショナーを導入した: 大規模深層モデル [anil et al., 2020] と生産モデル [anil et al., 2022] で使用される。
しかし、不条件行列の逆行列根を取る。
64ビットの精度が必要で、ハードウェアの制約が強い。
本稿では, Kronecker Approximation-Domination (KrAD) を新たに提案する。
kradを用いて,逆経験フィッシャー行列(フルマトリックスアダグラードなど)を直接近似する行列を更新し,逆行列を回避し,64ビット精度を得る。
次に,シャンプーと同様の計算コストと後悔を伴うkradagrad$^\star$を提案する。
合成不条件実験では、32ビット精度でシャンプーよりも性能が向上し、実際のいくつかのデータセットでは、同等あるいはより良い一般化がある。
関連論文リスト
- Highly Adaptive Ridge [84.38107748875144]
直交可積分な部分微分を持つ右連続函数のクラスにおいて,$n-2/3$自由次元L2収束率を達成する回帰法を提案する。
Harは、飽和ゼロオーダーテンソル積スプライン基底展開に基づいて、特定のデータ適応型カーネルで正確にカーネルリッジレグレッションを行う。
我々は、特に小さなデータセットに対する最先端アルゴリズムよりも経験的性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:06:06Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - Ginger: An Efficient Curvature Approximation with Linear Complexity for
General Neural Networks [33.96967104979137]
ガウス・ニュートン法のような二階最適化手法は、目的関数の曲率情報を利用するため、より強力であると考えられる。
一般化されたガウスニュートン行列の近似の固有元であるギンガーを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:51:17Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Sparse Factorization of Large Square Matrices [10.94053598642913]
本稿では,大面積の正方行列とスパースフルランク行列の積を近似する。
近似では、我々の手法は$Ntimes N$ full matrix に対して$N(log N)2$ non-zero number しか必要としない。
近似行列がスパースかつハイランクである場合,本手法により近似精度が向上することを示す。
論文 参考訳(メタデータ) (2021-09-16T18:42:21Z) - Fast Low-Rank Tensor Decomposition by Ridge Leverage Score Sampling [5.740578698172382]
リッジレバレッジスコア (ridge leverage scores) と呼ばれるランダム化数値線形代数のタッカー分解とツールの利用について検討する。
近似リッジレバレッジスコアを用いて、任意のリッジ回帰問題に対してスケッチされたインスタンスを構築する方法を示す。
本研究では, 合成データと実世界のデータの両方に対して, 大規模かつ低ランクのタッカー分解に対する近似リッジ回帰アルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2021-07-22T13:32:47Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - The flare Package for High Dimensional Linear Regression and Precision
Matrix Estimation in R [45.24529956312764]
本稿では,新しい高次元回帰手法のファミリーを実装したフレアというRパッケージについて述べる。
パッケージフレアは二重精度Cで符号化され、ユーザフレンドリーなインターフェースによってRから呼び出される。
実験により、フレアは効率的で、大きな問題にスケールアップできることが示された。
論文 参考訳(メタデータ) (2020-06-27T18:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。