論文の概要: Zeroth-Order Optimization at the Edge of Stability
- arxiv url: http://arxiv.org/abs/2604.14669v1
- Date: Thu, 16 Apr 2026 06:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.755434
- Title: Zeroth-Order Optimization at the Edge of Stability
- Title(参考訳): 安定性の端におけるゼロ階最適化
- Authors: Minhak Song, Liang Zhang, Bingcong Li, Niao He, Michael Muehlebach, Sewoong Oh,
- Abstract要約: ゼロ階数(ZO)系の(平均二乗の)線形安定性を捉える明示的なステップサイズ条件を提供する。
以上の結果から,ZO法に特有の暗黙的な正則化効果が示され,大きなステップサイズが主にヘッセントレースを正則化することがわかった。
- 参考スコア(独自算出の注目度): 59.54782674222443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zeroth-order (ZO) methods are widely used when gradients are unavailable or prohibitively expensive, including black-box learning and memory-efficient fine-tuning of large models, yet their optimization dynamics in deep learning remain underexplored. In this work, we provide an explicit step size condition that exactly captures the (mean-square) linear stability of a family of ZO methods based on the standard two-point estimator. Our characterization reveals a sharp contrast with first-order (FO) methods: whereas FO stability is governed solely by the largest Hessian eigenvalue, mean-square stability of ZO methods depends on the entire Hessian spectrum. Since computing the full Hessian spectrum is infeasible in practical neural network training, we further derive tractable stability bounds that depend only on the largest eigenvalue and the Hessian trace. Empirically, we find that full-batch ZO methods operate at the edge of stability: ZO-GD, ZO-GDM, and ZO-Adam consistently stabilize near the predicted stability boundary across a range of deep learning training problems. Our results highlight an implicit regularization effect specific to ZO methods, where large step sizes primarily regularize the Hessian trace, whereas in FO methods they regularize the top eigenvalue.
- Abstract(参考訳): ゼロオーダー(ZO)法は、ブラックボックス学習や大規模モデルのメモリ効率のよい微調整など、勾配が利用できない、あるいは不当に高価である場合に広く用いられているが、ディープラーニングにおける最適化のダイナミクスはいまだ研究されていない。
本研究では、標準2点推定器に基づくZO手法の族(平均2乗)線形安定性を正確に捉える明示的なステップサイズ条件を提供する。
FO安定性は最大のヘッセン固有値によってのみ支配されるが、ZO法の平均二乗安定性はヘッセンスペクトル全体に依存する。
ヘッセンスペクトルの計算は実践的なニューラルネットワークトレーニングでは不可能であるため、最大固有値とヘッセントレースにのみ依存するトラクタブルな安定性境界を導出する。
実験により,ZO-GD,ZO-GDM,ZO-Adamといった全バッチZO法が安定性の最先端で動作していることが判明した。
その結果,ZO法に特有の暗黙的正則化効果が強調され,大きなステップサイズはヘッセントレースを主に正則化するのに対して,FO法では最高固有値を正則化する。
関連論文リスト
- Fine-grained Analysis of Stability and Generalization for Stochastic Bilevel Optimization [71.33048115652474]
バイレベル最適化(SBO)は、最近多くの機械学習パラダイムに統合されている。
本稿では,二段階最適化手法の体系的解析について述べる。
結果は再読解を必要とせず、より汎用的な目的関数に適用できる。
論文 参考訳(メタデータ) (2026-04-05T12:12:58Z) - Efficient Inference after Directionally Stable Adaptive Experiments [47.32051320630248]
本稿では,帯域幅などの適応データ収集後の経路微分可能な対象の推測について検討する。
本稿では,従来の目標パラメトリック安定性条件よりも厳格に弱い,新たな目標固有条件である指向性安定性を導入する。
論文 参考訳(メタデータ) (2026-02-25T01:09:18Z) - On the Benefits of Accelerated Optimization in Robust and Private Estimation [2.209921757303168]
本研究では,Frank-Wolfe法と投射降下法に基づく加速勾配法の利点について検討する。
Frank-Wolfe法では,制約集合上の$ell$-normの勾配に調整された反復学習率と一様下界をベースとした手法を提案する。
射影降下を加速するために、ネステロフの運動量に基づく一般的な変種を用いる。
論文 参考訳(メタデータ) (2025-06-03T16:26:30Z) - Exact Mean Square Linear Stability Analysis for SGD [28.65663421598186]
勾配降下(SGD)の線形安定性に必要かつ十分なステップサイズを明示的条件として提示する。
SGDの安定性閾値は、全バッチ勾配ステップw.p.$-p$と1サンプル勾配ステップw.p.$p$の混合プロセスと等価であることを示す。
論文 参考訳(メタデータ) (2023-06-13T15:29:23Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Stability of Stochastic Gradient Descent on Nonsmooth Convex Losses [52.039438701530905]
任意のリプシッツ非平滑凸損失に対して,数種類の勾配勾配降下(SGD)に対して,鋭い上下境界を与える。
我々の限界は、極端に過剰な集団リスクを伴う、微分的にプライベートな非平滑凸最適化のための新しいアルゴリズムを導出することを可能にする。
論文 参考訳(メタデータ) (2020-06-12T02:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。