論文の概要: VAMO: Efficient Zeroth-Order Variance Reduction for SGD with Faster Convergence
- arxiv url: http://arxiv.org/abs/2505.13954v2
- Date: Mon, 29 Sep 2025 07:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.279581
- Title: VAMO: Efficient Zeroth-Order Variance Reduction for SGD with Faster Convergence
- Title(参考訳): VAMO:より高速な収束を伴うSGDの高効率ゼロ階可変化
- Authors: Jiahe Chen, Ziye Ma,
- Abstract要約: 大規模非問題はディープラーニングでは一般的である。
ファーストオーダー(FO)は今日のベースラインとして機能する。
ZOアルゴリズムは計算量とメモリコストを減らす。
VAMOは、より少ない動的メモリ要求でこれらのゲインを達成する。
- 参考スコア(独自算出の注目度): 6.574641780732972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing large-scale nonconvex problems, common in deep learning, demands balancing rapid convergence with computational efficiency. First-order (FO) optimizers, which serve as today's baselines, provide fast convergence and good generalization but often incur high computation and memory costs due to the large size of modern models. Conversely, zeroth-order (ZO) algorithms reduce this burden using estimated gradients, yet their slow convergence in high-dimensional settings limits practicality. We introduce VAMO (VAriance-reduced Mixed-gradient Optimizer), a stochastic variance-reduced method that extends mini-batch SGD with full-batch ZO gradients under an SVRG-style framework. VAMO's hybrid design utilizes a two-point ZO estimator to achieve a dimension-agnostic convergence rate of $\mathcal{O}(1/T + 1/b)$, where $T$ is the number of iterations and $b$ is the batch-size, surpassing the dimension-dependent slowdown of purely ZO methods and significantly improving over SGD's $\mathcal{O}(1/\sqrt{T})$ rate. Additionally, we propose a multi-point variant that mitigates the $O(1/b)$ error by adjusting the number of estimation points to balance convergence and cost. Importantly, VAMO achieves these gains with smaller dynamic memory requirements than many FO baselines, making it particularly attractive for edge deployment. Experiments including traditional neural network training and LLM finetuning confirm that VAMO not only outperforms established FO and ZO methods, but also does so with a light memory footprint.
- Abstract(参考訳): ディープラーニングで一般的な大規模非凸問題の最適化は、高速収束と計算効率のバランスをとる必要がある。
現在のベースラインとして機能する1次最適化器(FO)は、高速収束と優れた一般化を提供するが、現代のモデルのサイズが大きいため、しばしば高い計算とメモリコストを発生させる。
逆に、ゼロ階数(ZO)アルゴリズムは推定勾配を用いてこの負担を軽減するが、高次元設定における収束の遅いため実用性が制限される。
VAMO(VAriance-reduced Mixed-gradient Optimizer)は,SVRGスタイルのフレームワークの下で,ZO勾配をフルバッチで拡張したSGDの確率的分散解法である。
VAMOのハイブリッド設計では、2点ZO推定器を用いて次元非依存収束率を$\mathcal{O}(1/T + 1/b)$とし、$T$は反復数、$b$はバッチサイズであり、純粋なZOメソッドの次元依存の減速を克服し、SGDの$\mathcal{O}(1/\sqrt{T})$レートを大幅に改善する。
さらに,コンバージェンスとコストのバランスをとるために推定点数を調整することで,$O(1/b)$エラーを緩和する多点変種を提案する。
重要なことは、VAMOは多くのFOベースラインよりも少ない動的メモリ要求でこれらのゲインを達成するため、特にエッジデプロイメントでは魅力的である。
従来のニューラルネットワークトレーニングやLLMファインタニングなどの実験では、VAMOはFO法やZO法よりも優れているだけでなく、メモリフットプリントも優れていることが確認されている。
関連論文リスト
- A Trainable Optimizer [18.195022468462753]
モデルの全勾配推定器とトレーニング可能な重みを共同で訓練する枠組みを提案する。
Pseudo-linear TOは無視可能な計算オーバーヘッドを発生させ、最小限の乗算しか必要としない。
実験により、TOメソッドはベンチマークアルゴリズムよりも早く収束することが示された。
論文 参考訳(メタデータ) (2025-08-03T14:06:07Z) - SAPPHIRE: Preconditioned Stochastic Variance Reduction for Faster Large-Scale Statistical Learning [18.055120576191204]
Ill-conditioned objectives and nonsmooth regularizers under the performance of traditional convex method。
本研究では,不条件な複合型大規模機械学習問題に対する分散自由解を提案する。
論文 参考訳(メタデータ) (2025-01-27T10:36:45Z) - Obtaining Lower Query Complexities through Lightweight Zeroth-Order Proximal Gradient Algorithms [65.42376001308064]
複素勾配問題に対する2つの分散化ZO推定器を提案する。
我々は、現在最先端の機能複雑性を$mathcalOleft(minfracdn1/2epsilon2, fracdepsilon3right)$から$tildecalOleft(fracdepsilon2right)$に改善する。
論文 参考訳(メタデータ) (2024-10-03T15:04:01Z) - Adaptive Variance Reduction for Stochastic Optimization under Weaker Assumptions [26.543628010637036]
非函数に対して$mathcalO(log T)$の最適収束率を達成する新しい適応還元法を導入する。
また、提案手法を拡張して、合成最適化のために$mathcalO(log T)$と同じ最適率を得る。
論文 参考訳(メタデータ) (2024-06-04T04:39:51Z) - Double Variance Reduction: A Smoothing Trick for Composite Optimization Problems without First-Order Gradient [40.22217106270146]
ばらつき低減技術はサンプリングのばらつきを低減し、一階法(FO)とゼロ階法(ZO)の収束率を向上するように設計されている。
複合最適化問題において、ZO法は、ランダム推定から導かれる座標ワイド分散と呼ばれる追加の分散に遭遇する。
本稿では,ZPDVR法とZPDVR法を提案する。
論文 参考訳(メタデータ) (2024-05-28T02:27:53Z) - A Specialized Semismooth Newton Method for Kernel-Based Optimal
Transport [92.96250725599958]
カーネルベース最適輸送(OT)推定器は、サンプルからOT問題に対処するための代替的機能的推定手順を提供する。
SSN法は, 標準正規性条件下でのグローバル収束率$O (1/sqrtk)$, 局所二次収束率を達成できることを示す。
論文 参考訳(メタデータ) (2023-10-21T18:48:45Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - A Variance Controlled Stochastic Method with Biased Estimation for
Faster Non-convex Optimization [0.0]
減少勾配(SVRG)の性能を向上させるために, 分散制御勾配(VCSG)という新しい手法を提案する。
ラムダ$はVCSGで導入され、SVRGによる分散の過剰還元を避ける。
$mathcalO(min1/epsilon3/2,n1/4/epsilon)$ 勾配評価の数。
論文 参考訳(メタデータ) (2021-02-19T12:22:56Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。