論文の概要: Alada: Alternating Adaptation of Momentum Method for Memory-Efficient Matrix Optimization
- arxiv url: http://arxiv.org/abs/2512.13034v1
- Date: Mon, 15 Dec 2025 07:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.561281
- Title: Alada: Alternating Adaptation of Momentum Method for Memory-Efficient Matrix Optimization
- Title(参考訳): Alada: メモリ効率の良い行列最適化のためのモーメント法の代用適応
- Authors: Xiaoyu He, Yu Cai, Jin Jia, Canxi Huang, Wenqing Chen, Zibin Zheng,
- Abstract要約: Aladaは大規模行列の最適化のための適応運動量法である。
Aladaはサブ線形メモリオーバーヘッドを実現し、テンソル型の変数を最適化するために簡単に拡張できる。
- 参考スコア(独自算出の注目度): 42.43032633265946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes Alada, an adaptive momentum method for stochastic optimization over large-scale matrices. Alada employs a rank-one factorization approach to estimate the second moment of gradients, where factors are updated alternatively to minimize the estimation error. Alada achieves sublinear memory overheads and can be readily extended to optimizing tensor-shaped variables.We also equip Alada with a first moment estimation rule, which enhances the algorithm's robustness without incurring additional memory overheads. The theoretical performance of Alada aligns with that of traditional methods such as Adam. Numerical studies conducted on several natural language processing tasks demonstrate the reduction in memory overheads and the robustness in training large models relative to Adam and its variants.
- Abstract(参考訳): 本研究では,大規模行列上での確率的最適化のための適応運動量法であるAladaを提案する。
アラダは勾配の第2モーメントを推定するためにランクワンの分解手法を採用しており、推定誤差を最小限に抑えるために因子を代替的に更新する。
また,アラダを第1モーメント推定規則を定め,メモリオーバーヘッドを増大させることなくアルゴリズムのロバスト性を高める。
アラダの理論的性能はアダムのような伝統的な方法と一致している。
いくつかの自然言語処理タスクに関する数値的研究は、Adamとその変種に対する大規模モデルのトレーニングにおいて、メモリオーバーヘッドの低減とロバスト性を示す。
関連論文リスト
- A Trainable Optimizer [18.195022468462753]
モデルの全勾配推定器とトレーニング可能な重みを共同で訓練する枠組みを提案する。
Pseudo-linear TOは無視可能な計算オーバーヘッドを発生させ、最小限の乗算しか必要としない。
実験により、TOメソッドはベンチマークアルゴリズムよりも早く収束することが示された。
論文 参考訳(メタデータ) (2025-08-03T14:06:07Z) - Improving Adaptive Moment Optimization via Preconditioner Diagonalization [11.01832755213396]
提案手法は,現代適応法の収束速度を大幅に向上させることができることを示す。
LLaMAのような大きな言語モデルでは、ベースラインであるAdamと比較して2倍のスピードアップが達成できます。
論文 参考訳(メタデータ) (2025-02-11T11:48:04Z) - Efficient Optimization Algorithms for Linear Adversarial Training [9.933836677441684]
逆行訓練は摂動に対して堅牢なモデルを学ぶのに使える。
本稿では,線形モデルの対数学習のための最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T15:41:08Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Memory-Efficient Backpropagation through Large Linear Layers [107.20037639738433]
Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。
本研究では,線形層によるバックプロパゲーションを実現するためのメモリ削減手法を提案する。
論文 参考訳(メタデータ) (2022-01-31T13:02:41Z) - Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive
Step Size [29.15132344744801]
本研究では,行列逆変換などの問題に対して,適応的なステップサイズを持つ勾配勾配の局所収束性を確立する。
これらの一階最適化法は線形あるいは線形収束を実現することができることを示す。
論文 参考訳(メタデータ) (2021-12-30T00:50:30Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。