論文の概要: Zeroth-Order Optimization is Secretly Single-Step Policy Optimization
- arxiv url: http://arxiv.org/abs/2506.14460v1
- Date: Tue, 17 Jun 2025 12:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.466235
- Title: Zeroth-Order Optimization is Secretly Single-Step Policy Optimization
- Title(参考訳): ゼロ階最適化は秘密裏にシングルステップポリシー最適化である
- Authors: Junbin Qiu, Zhengpeng Xie, Xiangda Yan, Yongjie Yang, Yao Shu,
- Abstract要約: Zeroth-Order Optimization (ZOO)は、明示的な勾配が利用できない、あるいは計算に費用がかかる関数を最適化するための強力なツールを提供する。
有限差分を持つZOOは、単一ステップポリシー最適化(PO)の具体例と等価である。
本稿では,PO-インスパイアされた分散低減手法を取り入れた新しいZOOアルゴリズムZoARを提案する。
- 参考スコア(独自算出の注目度): 14.7452801753212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zeroth-Order Optimization (ZOO) provides powerful tools for optimizing functions where explicit gradients are unavailable or expensive to compute. However, the underlying mechanisms of popular ZOO methods, particularly those employing randomized finite differences, and their connection to other optimization paradigms like Reinforcement Learning (RL) are not fully elucidated. This paper establishes a fundamental and previously unrecognized connection: ZOO with finite differences is equivalent to a specific instance of single-step Policy Optimization (PO). We formally unveil that the implicitly smoothed objective function optimized by common ZOO algorithms is identical to a single-step PO objective. Furthermore, we show that widely used ZOO gradient estimators, are mathematically equivalent to the REINFORCE gradient estimator with a specific baseline function, revealing the variance-reducing mechanism in ZOO from a PO perspective.Built on this unified framework, we propose ZoAR (Zeroth-Order Optimization with Averaged Baseline and Query Reuse), a novel ZOO algorithm incorporating PO-inspired variance reduction techniques: an averaged baseline from recent evaluations and query reuse analogous to experience replay. Our theoretical analysis further substantiates these techniques reduce variance and enhance convergence. Extensive empirical studies validate our theory and demonstrate that ZoAR significantly outperforms other methods in terms of convergence speed and final performance. Overall, our work provides a new theoretical lens for understanding ZOO and offers practical algorithmic improvements derived from its connection to PO.
- Abstract(参考訳): Zeroth-Order Optimization (ZOO)は、明示的な勾配が利用できない、あるいは計算に費用がかかる関数を最適化するための強力なツールを提供する。
しかし、一般的なZOO法の基礎となるメカニズム、特にランダム化有限差分を用いた手法と強化学習(RL)のような他の最適化パラダイムとの関係は、完全には解明されていない。
有限差分を持つZOOは、単一ステップポリシー最適化(PO)の具体例と等価である。
我々は、共通ZOOアルゴリズムによって最適化された暗黙的に滑らかな目的関数が、単一ステップのPO目的関数と同一であることを正式に明らかにした。
さらに、広く使われているZOO勾配推定器は、特定のベースライン関数を持つREINFORCE勾配推定器と数学的に等価であり、POの観点からZOOの分散低減機構を明らかにすることを示し、この統一フレームワークに基づいて、PO-インスパイアされた分散低減手法を取り入れた新しいZOOアルゴリズムであるZoAR(Zeroth-Order Optimization with Averaged Baseline and Query Reuse)を提案する。
我々の理論解析はこれらの手法をさらに裏付け、分散を低減し収束を高める。
大規模な実証実験により、ZoARは収束速度や最終性能の点で他の手法よりも優れていることが示された。
全体として、我々の研究はZOOを理解するための新しい理論レンズを提供し、POとの接続から導かれる実用的なアルゴリズム改善を提供する。
関連論文リスト
- A Novel Unified Parametric Assumption for Nonconvex Optimization [53.943470475510196]
非最適化は機械学習の中心であるが、一般の非凸性は弱い収束を保証するため、他方に比べて悲観的すぎる。
非凸アルゴリズムに新しい統一仮定を導入する。
論文 参考訳(メタデータ) (2025-02-17T21:25:31Z) - An Enhanced Zeroth-Order Stochastic Frank-Wolfe Framework for Constrained Finite-Sum Optimization [15.652261277429968]
本稿では,制約付き有限サム最適化問題に対処するため,ゼロ階凸計算を改良したFrank-Wolfeを提案する。
本手法では,ゼロ次オラクルによる近似を効果的に低減する新しい二重分散低減フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-13T10:53:19Z) - Adaptive Variance Reduction for Stochastic Optimization under Weaker Assumptions [26.543628010637036]
非函数に対して$mathcalO(log T)$の最適収束率を達成する新しい適応還元法を導入する。
また、提案手法を拡張して、合成最適化のために$mathcalO(log T)$と同じ最適率を得る。
論文 参考訳(メタデータ) (2024-06-04T04:39:51Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - An Empirical Evaluation of Zeroth-Order Optimization Methods on
AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。
ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。
本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文 参考訳(メタデータ) (2022-10-27T01:58:10Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。