論文の概要: Dynamic Low-rank Approximation of Full-Matrix Preconditioner for Training Generalized Linear Models
- arxiv url: http://arxiv.org/abs/2508.21106v1
- Date: Thu, 28 Aug 2025 13:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.831247
- Title: Dynamic Low-rank Approximation of Full-Matrix Preconditioner for Training Generalized Linear Models
- Title(参考訳): 一般化線形モデルのトレーニングのためのフルマトリックスプレコンディショナーの動的低ランク近似
- Authors: Tatyana Matveeva, Aleksandr Katrutsa, Evgeny Frolov,
- Abstract要約: AdaGramは効率の良い完全行列適応勾配更新である。
AdaGramは、ランク5とより小さいランク近似を使用する場合、より速く収束するか、対角アダプティブのパフォーマンスに適合する。
これは、大規模モデルにおける適応最適化のためのスケーラブルなソリューションとしてのAdaGramの可能性を示している。
- 参考スコア(独自算出の注目度): 43.79587815909472
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Adaptive gradient methods like Adagrad and its variants are widespread in large-scale optimization. However, their use of diagonal preconditioning matrices limits the ability to capture parameter correlations. Full-matrix adaptive methods, approximating the exact Hessian, can model these correlations and may enable faster convergence. At the same time, their computational and memory costs are often prohibitive for large-scale models. To address this limitation, we propose AdaGram, an optimizer that enables efficient full-matrix adaptive gradient updates. To reduce memory and computational overhead, we utilize fast symmetric factorization for computing the preconditioned update direction at each iteration. Additionally, we maintain the low-rank structure of a preconditioner along the optimization trajectory using matrix integrator methods. Numerical experiments on standard machine learning tasks show that AdaGram converges faster or matches the performance of diagonal adaptive optimizers when using rank five and smaller rank approximations. This demonstrates AdaGram's potential as a scalable solution for adaptive optimization in large models.
- Abstract(参考訳): Adagradとその変種のような適応的な勾配法は、大規模な最適化で広く使われている。
しかし、対角的プレコンディショニング行列の使用は、パラメータ相関をキャプチャする能力を制限している。
正確なヘシアンを近似する完全行列適応法はこれらの相関をモデル化することができ、より高速な収束を可能にする。
同時に、その計算とメモリのコストは、しばしば大規模モデルでは禁じられている。
この制限に対処するため,全行列適応勾配の効率的な更新を可能にする最適化器であるAdaGramを提案する。
メモリと計算オーバーヘッドを削減するため、各イテレーションの事前条件更新方向の計算に高速な対称分解を利用する。
さらに,行列積分器法を用いて,最適化軌道に沿ってプレコンディショナーの低ランク構造を維持する。
標準的な機械学習タスクに関する数値実験により、AdaGramはランク5以下の近似を用いて、より高速に収束するか、対角適応オプティマイザの性能に適合することが示された。
これは、大規模モデルにおける適応最適化のためのスケーラブルなソリューションとしてのAdaGramの可能性を示している。
関連論文リスト
- A Trainable Optimizer [18.195022468462753]
モデルの全勾配推定器とトレーニング可能な重みを共同で訓練する枠組みを提案する。
Pseudo-linear TOは無視可能な計算オーバーヘッドを発生させ、最小限の乗算しか必要としない。
実験により、TOメソッドはベンチマークアルゴリズムよりも早く収束することが示された。
論文 参考訳(メタデータ) (2025-08-03T14:06:07Z) - Improving Adaptive Moment Optimization via Preconditioner Diagonalization [11.01832755213396]
提案手法は,現代適応法の収束速度を大幅に向上させることができることを示す。
LLaMAのような大きな言語モデルでは、ベースラインであるAdamと比較して2倍のスピードアップが達成できます。
論文 参考訳(メタデータ) (2025-02-11T11:48:04Z) - AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for Preconditioning Matrix [8.975415409709575]
本稿では,2段階の勾配差を対角線要素として利用して,プレコンディショニング行列の設計手法を提案する。
我々は、自然言語コンピュータビジョン(CV)とレコメンデーションシステム(RecSys)の一般化に関するAGDの評価を行った。
論文 参考訳(メタデータ) (2023-12-04T06:20:14Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Matrix Completion via Non-Convex Relaxation and Adaptive Correlation
Learning [90.8576971748142]
閉形式解によって最適化できる新しいサロゲートを開発する。
そこで我々は, 上向きの相関関係を利用して, 適応的相関学習モデルを構築した。
論文 参考訳(メタデータ) (2022-03-04T08:50:50Z) - Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive
Step Size [29.15132344744801]
本研究では,行列逆変換などの問題に対して,適応的なステップサイズを持つ勾配勾配の局所収束性を確立する。
これらの一階最適化法は線形あるいは線形収束を実現することができることを示す。
論文 参考訳(メタデータ) (2021-12-30T00:50:30Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。