論文の概要: ZO-AdaMU Optimizer: Adapting Perturbation by the Momentum and
Uncertainty in Zeroth-order Optimization
- arxiv url: http://arxiv.org/abs/2312.15184v1
- Date: Sat, 23 Dec 2023 07:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:26:47.149030
- Title: ZO-AdaMU Optimizer: Adapting Perturbation by the Momentum and
Uncertainty in Zeroth-order Optimization
- Title(参考訳): ZO-AdaMU最適化:ゼロ階最適化におけるモーメントと不確かさによる摂動適応
- Authors: Shuoran Jiang, Qingcai Chen, Youchen Pan, Yang Xiang, Yukang Lin,
Xiangping Wu, Chuanyi Liu, Xiaobao Song
- Abstract要約: 本研究は、ZO-AdaMUを用いて、その近似における運動量による模擬摂動に適応することを提案する。
我々の収束解析と実験は、ZO-SGDの収束安定性と速度を改善するためのより良い方法であることを証明している。
- 参考スコア(独自算出の注目度): 18.02643194439027
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Lowering the memory requirement in full-parameter training on large models
has become a hot research area. MeZO fine-tunes the large language models
(LLMs) by just forward passes in a zeroth-order SGD optimizer (ZO-SGD),
demonstrating excellent performance with the same GPU memory usage as
inference. However, the simulated perturbation stochastic approximation for
gradient estimate in MeZO leads to severe oscillations and incurs a substantial
time overhead. Moreover, without momentum regularization, MeZO shows severe
over-fitting problems. Lastly, the perturbation-irrelevant momentum on ZO-SGD
does not improve the convergence rate. This study proposes ZO-AdaMU to resolve
the above problems by adapting the simulated perturbation with momentum in its
stochastic approximation. Unlike existing adaptive momentum methods, we
relocate momentum on simulated perturbation in stochastic gradient
approximation. Our convergence analysis and experiments prove this is a better
way to improve convergence stability and rate in ZO-SGD. Extensive experiments
demonstrate that ZO-AdaMU yields better generalization for LLMs fine-tuning
across various NLP tasks than MeZO and its momentum variants.
- Abstract(参考訳): 大規模モデルのフルパラメータトレーニングにおけるメモリ要件の低下は、ホットな研究領域となっている。
MeZOは、ゼロ階SGDオプティマイザ(ZO-SGD)を前向きに通過させることで、大きな言語モデル(LLM)を微調整し、推論と同じGPUメモリ使用量で優れたパフォーマンスを示す。
しかし、MeZOにおける勾配推定のシミュレーション摂動確率近似は、激しい振動を引き起こし、かなりの時間的オーバーヘッドを引き起こす。
さらに、運動量正則化なしでは、MeZOは厳しい過適合問題を示す。
最後に、ZO-SGDの摂動非関連運動量は収束率を向上しない。
本研究では、ZO-AdaMUを確率近似における運動量による模擬摂動に適応させることにより、上記の問題を解決することを提案する。
既存の適応運動量法とは異なり, 確率的勾配近似における摂動シミュレーションによる運動量移動を行う。
我々の収束解析と実験は、ZO-SGDの収束安定性と速度を改善するためのより良い方法であることを証明している。
広範な実験により、zo-adamu は様々な nlp タスクをまたいだ llms の微調整の一般化を mezo とその運動量変種よりも達成できることが示されている。
関連論文リスト
- Refining Adaptive Zeroth-Order Optimization at Ease [24.327161891577727]
本稿では,Refined Adaptive Zeroth-Order Optimization (R-AdaZO)を紹介する。
まず、ZO勾配推定における第1モーメント推定の未解決分散低減効果を示す。
次に、これらの分散誘導勾配推定に基づいて第2モーメント推定を洗練し、最適化ランドスケープの幾何をより正確に把握する。
論文 参考訳(メタデータ) (2025-02-03T03:10:44Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Moreau Envelope ADMM for Decentralized Weakly Convex Optimization [55.2289666758254]
本稿では,分散最適化のための乗算器の交互方向法(ADMM)の近位変種を提案する。
数値実験の結果,本手法は広く用いられている手法よりも高速かつ堅牢であることが示された。
論文 参考訳(メタデータ) (2023-08-31T14:16:30Z) - SketchySGD: Reliable Stochastic Optimization via Randomized Curvature
Estimates [19.420605210427635]
SketchySGDは、サブサンプルヘッセンに対するランダム化低ランク近似を用いることで、機械学習の既存の勾配法を改善する。
固定段数を持つSketchySGDが最適の周りの小さな球に線形に収束することを理論的に示す。
条件のない設定では、最小二乗問題に対してSketchySGDはSGDよりも高速に収束することを示す。
論文 参考訳(メタデータ) (2022-11-16T01:05:41Z) - Convergence and Stability of the Stochastic Proximal Point Algorithm
with Momentum [14.158845925610438]
運動量を持つ勾配近位アルゴリズム(PPA)は、より優れた縮退係数を持つ近位アルゴリズム(PPA)と比較して、近傍への高速収束を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-11T12:17:22Z) - Stochastic Mirror Descent: Convergence Analysis and Adaptive Variants
via the Mirror Stochastic Polyak Stepsize [20.376216873620763]
比較的滑らかで滑らかな凸最適化の下でのミラー降下(SMD)の収束について検討した。
我々は、新しい適応的なステップサイズスキーム、ミラーポリアクステップサイズ(mSPS)を提案する。
論文 参考訳(メタデータ) (2021-10-28T19:49:40Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z) - The Role of Momentum Parameters in the Optimal Convergence of Adaptive
Polyak's Heavy-ball Methods [12.93796690939018]
適応型Polyak's Heavy-ball (HB) 法は最適な個人収束率を$O(frac1sqrtt)$とする。
新しい解析では,hb運動量とその時間的変動が凸最適化の高速化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-02-15T02:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。