論文の概要: From Online Optimization to PID Controllers: Mirror Descent with
Momentum
- arxiv url: http://arxiv.org/abs/2202.06152v1
- Date: Sat, 12 Feb 2022 21:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 17:38:51.065047
- Title: From Online Optimization to PID Controllers: Mirror Descent with
Momentum
- Title(参考訳): オンライン最適化からpidコントローラへ:運動量によるミラー降下
- Authors: Santiago R. Balseiro, Haihao Lu, Vahab Mirrokni, Balasubramanian Sivan
- Abstract要約: オンライン凸最適化のためのミラー降下に基づく運動量を持つ第一自明な手法のファミリーについて検討する。
モーメントが増加するにつれて減少する後悔境界をもたらす手法を, 新しく, 簡便に解析する。
我々の研究は、最近の成功にもかかわらず運動量に基づく手法の利点をよりよく理解することを目的としている。
- 参考スコア(独自算出の注目度): 16.297059109611798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a family of first-order methods with momentum based on mirror
descent for online convex optimization, which we dub online mirror descent with
momentum (OMDM). Our algorithms include as special cases gradient descent and
exponential weights update with momentum. We provide a new and simple analysis
of momentum-based methods in a stochastic setting that yields a regret bound
that decreases as momentum increases. This immediately establishes that
momentum can help in the convergence of stochastic subgradient descent in
convex nonsmooth optimization. We showcase the robustness of our algorithm by
also providing an analysis in an adversarial setting that gives the first
non-trivial regret bounds for OMDM. Our work aims to provide a better
understanding of the benefits of momentum-based methods, which despite their
recent empirical success, is incomplete.
Finally, we discuss how OMDM can be applied to stochastic online allocation
problems, which are central problems in computer science and operations
research. In doing so, we establish an important connection between OMDM and
popular approaches from optimal control such as PID controllers, thereby
providing regret bounds on the performance of PID controllers. The improvements
of momentum are most pronounced when the step-size is large, thereby indicating
that momentum provides a robustness to misspecification of tuning parameters.
We provide a numerical evaluation that verifies the robustness of our
algorithms.
- Abstract(参考訳): 我々は,オンライン凸最適化のためのミラー降下に基づく一階法の一群について検討し,オンラインミラー降下と運動量(OMDM)をダブする。
我々のアルゴリズムには特別な場合として勾配降下と指数重みがモーメントで更新される。
モーメントが増加するにつれて減少する後悔境界を生じる確率的設定において、モーメントに基づく新しい単純かつ簡単な解析を行う。
このことは、モーメントが凸非滑らかな最適化における確率的下降降下の収束に役立つことを直ちに証明する。
我々は,OMDMに対する最初の非自明な後悔境界を与える逆条件で解析を行うことにより,アルゴリズムの堅牢性を示す。
我々の研究は、最近の経験的成功にもかかわらず、運動量に基づく手法の利点をよりよく理解することを目的としている。
最後に,OMDMがコンピュータ科学と運用研究の中心的な問題である確率的オンライン割当問題にどのように適用できるかを論じる。
そこで我々は,PIDコントローラなどの最適制御から,OMDMと一般的なアプローチとの重要なつながりを確立し,PIDコントローラの性能に不利な制約を与える。
運動量の改善は、ステップサイズが大きくなると最も顕著になるため、運動量がチューニングパラメータの誤特定に対して堅牢であることを示す。
アルゴリズムの堅牢性を検証する数値評価を行う。
関連論文リスト
- Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - Regret Analysis of Policy Optimization over Submanifolds for Linearly
Constrained Online LQG [12.201535821920624]
制御器に与えられた線形制約を持つオンライン線形二次ガウス問題について検討する。
関数列の第1次および第2次情報に対する予測に基づいてオンラインコントローラを提供するオンライン楽観的ニュートン(OONM)を提案する。
論文 参考訳(メタデータ) (2024-03-13T14:06:18Z) - Beyond PID Controllers: PPO with Neuralized PID Policy for Proton Beam
Intensity Control in Mu2e [3.860979702631594]
我々は,Fermi National Accelerator Laboratory (Fermilab) におけるMuon to Electron Conversion Experiment (Mu2e) における均一な陽子ビーム強度の伝達を維持することを目的とした,新しいPPOアルゴリズムを提案する。
我々の主な目的は、一貫した強度プロファイルを確保するために、一貫した強度プロファイルを確保するために、スピル制御システム(SRS)パラメータのリアルタイムフィードバックとキャリブレーションをミリ秒のタイムスケールで実現する自動制御器を作成することにある。
論文 参考訳(メタデータ) (2023-12-28T21:35:20Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。
敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。
我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文 参考訳(メタデータ) (2022-05-27T17:40:32Z) - On Centralized and Distributed Mirror Descent: Exponential Convergence
Analysis Using Quadratic Constraints [8.336315962271396]
ミラー降下(MD)は、勾配降下(GD)を含むいくつかのアルゴリズムを仮定する強力な一階最適化手法である。
本研究では,強い凸と滑らかな問題に対して,集中型および分散型のMDの正確な収束率について検討した。
論文 参考訳(メタデータ) (2021-05-29T23:05:56Z) - Bilevel Online Adaptation for Out-of-Domain Human Mesh Reconstruction [94.25865526414717]
本稿では,事前に訓練されたヒトメッシュ再構築モデルをドメイン外ストリーミングビデオに適応させるという新たな問題を検討する。
重みプローブと重み更新の2つのステップに全体多対象の最適化プロセスを分割するBilevel Online Adaptationを提案します。
BOAが2つのヒューマンメッシュ再構築ベンチマークで最先端の結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2021-03-30T15:47:58Z) - Online mirror descent and dual averaging: keeping pace in the dynamic
case [11.572321455920164]
オンラインミラー降下(OMD)と二重平均化(DA)は、オンライン凸最適化の基本的なアルゴリズムである。
我々はOMDアルゴリズムを安定化と呼ぶ単純な手法で修正する。
安定化とDAを持つOMDが、動的学習率の下でも、多くのアプリケーションで同じパフォーマンス保証を享受していることを示します。
論文 参考訳(メタデータ) (2020-06-03T23:41:40Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。