論文の概要: Turning Stale Gradients into Stable Gradients: Coherent Coordinate Descent with Implicit Landscape Smoothing for Lightweight Zeroth-Order Optimization
- arxiv url: http://arxiv.org/abs/2605.14373v1
- Date: Thu, 14 May 2026 04:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.626949
- Title: Turning Stale Gradients into Stable Gradients: Coherent Coordinate Descent with Implicit Landscape Smoothing for Lightweight Zeroth-Order Optimization
- Title(参考訳): 定常勾配を安定勾配に変換する:軽量ゼロ階最適化のための不規則景観平滑化コヒーレント座標
- Authors: Chen Liang, Xiatao Sun, Qian Wang, Daniel Rakita,
- Abstract要約: バックプロパゲーションが利用できないシナリオでは、ゼロオーダ(ZO)最適化が重要となる。
既存の方法は、サンプル非効率(例:標準有限差分)であるか、ランダム化推定による高い分散に悩まされている、という大きなトレードオフに直面している。
本研究では,CoCD(Coherent Coordinate Descent)を提案する。
- 参考スコア(独自算出の注目度): 11.723535704837266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zeroth-Order (ZO) optimization is pivotal for scenarios where backpropagation is unavailable, such as memory-constrained on-device learning and black-box optimization. However, existing methods face a stark trade-off: they are either sample-inefficient (e.g., standard finite differences) or suffer from high variance due to randomized estimation (e.g., random subspace methods). In this work, we propose Coherent Coordinate Descent (CoCD), a deterministic, sample-efficient, and budget-aware ZO optimizer. Theoretically, we formalize the notion of gradient coherence and demonstrate that CoCD is equivalent to Block Cyclic Coordinate Descent (BCCD) with ``warm starts,'' effectively converting historical (stale) gradients from a liability into a computational asset. This mechanism enables $O(1)$ query complexity per step while maintaining global descent directions. Furthermore, we derive error bounds revealing a counter-intuitive insight: larger finite-difference step sizes can induce an implicit smoothing effect on the optimization landscape by reducing the effective smoothness constant, thereby improving convergence stability. Experiments on MLP, CNN, and ResNet architectures (up to 270k parameters) demonstrate that CoCD significantly outperforms BCCD in terms of sample efficiency and convergence loss/accuracy, and exhibits superior stability over randomized ZO methods. Our results suggest that deterministic, structure-aware updates offer a superior alternative to randomization for lightweight ZO optimization.
- Abstract(参考訳): デバイス上でのメモリ制限やブラックボックス最適化など、バックプロパゲーションが利用できないシナリオでは、ゼロオーダー(ZO)最適化が重要となる。
しかし、既存の手法は、サンプル非効率(例:標準有限差分)であるか、ランダム化推定(例:ランダム部分空間法)による高分散に悩まされているかのどちらかである。
本研究では,コヒーレントコーディネートDescent (CoCD) を,決定論的,サンプル効率,予算を考慮したZOオプティマイザとして提案する。
理論的には、勾配コヒーレンスの概念を定式化し、CoCD がブロックサイクル座標Descent (BCCD) と ''warm start'' と等価であることを示す。
このメカニズムは、グローバルな降下方向を維持しながら、ステップ毎に$O(1)$クエリの複雑さを可能にする。
より大きな有限差分ステップサイズは、効率的な滑らか度定数を減らし、収束安定性を向上させることにより、最適化ランドスケープに暗黙の滑らか化効果を誘導することができる。
MLP、CNN、ResNetアーキテクチャ(最大270kパラメータ)の実験では、COCDはサンプル効率と収束損失/精度でBCCDを著しく上回り、ランダム化されたZO法よりも優れた安定性を示す。
この結果から, 決定論的構造対応更新は, 軽量ZO最適化において, ランダム化の代替となる可能性が示唆された。
関連論文リスト
- Universally Empowering Zeroth-Order Optimization via Adaptive Layer-wise Sampling [43.822941944402544]
ゼロ階最適化は、微調整された大規模言語モデルのための有望なメモリ効率のパラダイムを提供する。
しかし,壁面収差の緩やかな収束と高い推定分散により,その実用化は厳しく制約されている。
本稿では,適応層型ZO最適化フレームワークであるAdaLeZOを提案する。
論文 参考訳(メタデータ) (2026-04-20T13:37:31Z) - Double Variance Reduction: A Smoothing Trick for Composite Optimization Problems without First-Order Gradient [40.22217106270146]
ばらつき低減技術はサンプリングのばらつきを低減し、一階法(FO)とゼロ階法(ZO)の収束率を向上するように設計されている。
複合最適化問題において、ZO法は、ランダム推定から導かれる座標ワイド分散と呼ばれる追加の分散に遭遇する。
本稿では,ZPDVR法とZPDVR法を提案する。
論文 参考訳(メタデータ) (2024-05-28T02:27:53Z) - Optimal Guarantees for Algorithmic Reproducibility and Gradient
Complexity in Convex Optimization [55.115992622028685]
以前の研究は、一階法はより良い収束率(漸進収束率)をトレードオフする必要があることを示唆している。
最適複雑性と準最適収束保証の両方を、滑らかな凸最小化と滑らかな凸最小化問題に対して達成できることを実証する。
論文 参考訳(メタデータ) (2023-10-26T19:56:52Z) - Sampling from Gaussian Process Posteriors using Stochastic Gradient
Descent [43.097493761380186]
勾配アルゴリズムは線形系を解くのに有効な方法である。
最適値に収束しない場合であっても,勾配降下は正確な予測を導出することを示す。
実験的に、勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-20T15:07:37Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - COCO Denoiser: Using Co-Coercivity for Variance Reduction in Stochastic
Convex Optimization [4.970364068620608]
我々は,勾配オラクルによって出力される雑音の推定値を改善するために,凸性およびL平滑性を利用する。
問合せ点の数と近さの増加は、より良い勾配推定に繋がることを示す。
また、SGD、Adam、STRSAGAといった既存のアルゴリズムにCOCOをプラグインすることで、バニラ設定にもCOCOを適用します。
論文 参考訳(メタデータ) (2021-09-07T17:21:09Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。