論文の概要: On PI Controllers for Updating Lagrange Multipliers in Constrained Optimization
- arxiv url: http://arxiv.org/abs/2406.04558v1
- Date: Fri, 7 Jun 2024 00:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 17:47:54.322386
- Title: On PI Controllers for Updating Lagrange Multipliers in Constrained Optimization
- Title(参考訳): 制約付き最適化におけるラグランジュ乗算器更新のためのPI制御系について
- Authors: Motahareh Sohrabi, Juan Ramirez, Tianyue H. Zhang, Simon Lacoste-Julien, Jose Gallego-Posada,
- Abstract要約: 本稿では、$nu$PIアルゴリズムを提案し、PIコントローラに基づくラグランジュ乗算器更新の最適化に寄与する。
本研究では,勾配降下勾配の欠点に対処する運動量法が不可能であることを示す理論的,実証的な知見を提供する。
我々は、$nu$PIが単目的最小化の一般的な運動量法を一般化することを証明した。
- 参考スコア(独自算出の注目度): 16.40968330148623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constrained optimization offers a powerful framework to prescribe desired behaviors in neural network models. Typically, constrained problems are solved via their min-max Lagrangian formulations, which exhibit unstable oscillatory dynamics when optimized using gradient descent-ascent. The adoption of constrained optimization techniques in the machine learning community is currently limited by the lack of reliable, general-purpose update schemes for the Lagrange multipliers. This paper proposes the $\nu$PI algorithm and contributes an optimization perspective on Lagrange multiplier updates based on PI controllers, extending the work of Stooke, Achiam and Abbeel (2020). We provide theoretical and empirical insights explaining the inability of momentum methods to address the shortcomings of gradient descent-ascent, and contrast this with the empirical success of our proposed $\nu$PI controller. Moreover, we prove that $\nu$PI generalizes popular momentum methods for single-objective minimization. Our experiments demonstrate that $\nu$PI reliably stabilizes the multiplier dynamics and its hyperparameters enjoy robust and predictable behavior.
- Abstract(参考訳): 制約付き最適化は、ニューラルネットワークモデルで望ましい振る舞いを規定する強力なフレームワークを提供する。
典型的には、制約された問題は、その min-max Lagrangian の定式化によって解決される。
機械学習コミュニティにおける制約付き最適化手法の採用は、現在、ラグランジュ乗算器に対する信頼性の高い汎用的な更新スキームの欠如によって制限されている。
本稿では、$\nu$PIアルゴリズムを提案し、PIコントローラに基づくラグランジュ乗算器更新の最適化に寄与し、Stooke, Achiam, Abbeel (2020) の作業を拡張した。
本稿では,勾配降下上昇の欠点に対処する運動量法が不可能であることを示す理論的,実証的な洞察を与えるとともに,提案した$\nu$PIコントローラの実証的な成功と対比する。
さらに、$\nu$PIは単目的最小化の一般的な運動量法を一般化することを証明している。
我々の実験は、$\nu$PIが乗算器の力学を確実に安定化させ、そのハイパーパラメータは堅牢で予測可能な振る舞いを享受することを示した。
関連論文リスト
- Sample-efficient Iterative Lower Bound Optimization of Deep Reactive
Policies for Planning in Continuous MDPs [27.41101006357176]
本研究では,最小化-最大化の観点から反復的に最適化する。
w.r.t.は局所的に厳密な下界の目的である。
反復的下界最適化(ILBO)としての学習の新たな定式化は、(i)各ステップが全体目標よりも構造的に容易に最適化できるため、特に魅力的である。
実験的な評価により、ILBOは最先端のプランナーよりもはるかに試料効率が高いことが確認された。
論文 参考訳(メタデータ) (2022-03-23T19:06:16Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Bayesian Optimisation for Constrained Problems [0.0]
本稿では,制約を扱える知恵グラディエント獲得関数の新たな変種を提案する。
我々は、このアルゴリズムを、他の4つの最先端制約されたベイズ最適化アルゴリズムと比較し、その優れた性能を実証する。
論文 参考訳(メタデータ) (2021-05-27T15:43:09Z) - The Role of Momentum Parameters in the Optimal Convergence of Adaptive
Polyak's Heavy-ball Methods [12.93796690939018]
適応型Polyak's Heavy-ball (HB) 法は最適な個人収束率を$O(frac1sqrtt)$とする。
新しい解析では,hb運動量とその時間的変動が凸最適化の高速化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-02-15T02:57:14Z) - Accelerated, Optimal, and Parallel: Some Results on Model-Based
Stochastic Optimization [33.71051480619541]
凸最適化問題を解決するためのモデルベース手法の近似近位点(aProx)ファミリを拡張します。
我々は、非漸近収束保証と、ミニバッチサイズの線形スピードアップを提供する加速スキームを提供する。
我々は,「補間」問題に対する新しい基本定数を同定し,収束率の改善と下界の整合性を示す。
論文 参考訳(メタデータ) (2021-01-07T18:58:39Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Pushing the Envelope of Rotation Averaging for Visual SLAM [69.7375052440794]
視覚SLAMシステムのための新しい最適化バックボーンを提案する。
従来の単分子SLAMシステムの精度, 効率, 堅牢性を向上させるために, 平均化を活用している。
我々のアプローチは、公開ベンチマークの最先端技術に対して、同等の精度で最大10倍高速に表示することができる。
論文 参考訳(メタデータ) (2020-11-02T18:02:26Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。