論文の概要: Analysis of Dual-Based PID Controllers through Convolutional Mirror
Descent
- arxiv url: http://arxiv.org/abs/2202.06152v4
- Date: Tue, 19 Dec 2023 22:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 22:34:59.211343
- Title: Analysis of Dual-Based PID Controllers through Convolutional Mirror
Descent
- Title(参考訳): 畳み込みミラーによるデュアルPID制御系の解析
- Authors: Santiago R. Balseiro, Haihao Lu, Vahab Mirrokni, Balasubramanian Sivan
- Abstract要約: 本稿では、オンラインアロケーション問題に対するデュアルベースPIDコントローラの性能に関する最初の後悔点について述べる。
デュアルベースPIDコントローラと,emphConvolutional Mirror Descent (CMD)と呼ばれるオンライン凸最適化のための新しい1次アルゴリズムの基本的な接続を確立する。
我々は非滑らかな凸最適化のためのCMDに対する最初の後悔の限界を提供するが、これは独立した関心事かもしれない。
- 参考スコア(独自算出の注目度): 20.512667802427675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dual-based proportional-integral-derivative (PID) controllers are often
employed in practice to solve online allocation problems with global
constraints, such as budget pacing in online advertising. However, controllers
are used in a heuristic fashion and come with no provable guarantees on their
performance. This paper provides the first regret bounds on the performance of
dual-based PID controllers for online allocation problems. We do so by first
establishing a fundamental connection between dual-based PID controllers and a
new first-order algorithm for online convex optimization called
\emph{Convolutional Mirror Descent} (CMD), which updates iterates based on a
weighted moving average of past gradients. CMD recovers, in a special case,
online mirror descent with momentum and optimistic mirror descent. We establish
sufficient conditions under which CMD attains low regret for general online
convex optimization problems with adversarial inputs. We leverage this new
result to give the first regret bound for dual-based PID controllers for online
allocation problems. As a byproduct of our proofs, we provide the first regret
bound for CMD for non-smooth convex optimization, which might be of independent
interest.
- Abstract(参考訳): 双対型比例積分微分(PID)コントローラは、オンライン広告の予算割当など、グローバルな制約でオンライン割り当て問題を解決するためにしばしば使用される。
しかし、コントローラはヒューリスティックな方法で使われ、パフォーマンスに関する保証が得られない。
本稿では、オンラインアロケーション問題に対するデュアルベースPIDコントローラの性能に関する最初の後悔点を提供する。
我々はまず,双対型PIDコントローラとオンライン凸最適化のための新しい一階次アルゴリズムである 'emph{Convolutional Mirror Descent} (CMD) の基本的な接続を確立し,過去の勾配の重み付き移動平均に基づいて反復を更新する。
CMDは特別な場合、運動量と楽観的なミラー降下を伴うオンラインミラー降下を回復する。
我々は,CMDが一般のオンライン凸最適化問題に対して,逆入力による後悔の少ない条件を確立する。
この新たな結果を利用して、オンラインアロケーション問題に対するデュアルベースのPIDコントローラに初めて後悔の意を表す。
証明の副産物として、我々は非滑らかな凸最適化のためのCMDに対する最初の後悔の束を提供する。
関連論文リスト
- Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - Regret Analysis of Policy Optimization over Submanifolds for Linearly
Constrained Online LQG [12.201535821920624]
制御器に与えられた線形制約を持つオンライン線形二次ガウス問題について検討する。
関数列の第1次および第2次情報に対する予測に基づいてオンラインコントローラを提供するオンライン楽観的ニュートン(OONM)を提案する。
論文 参考訳(メタデータ) (2024-03-13T14:06:18Z) - Beyond PID Controllers: PPO with Neuralized PID Policy for Proton Beam
Intensity Control in Mu2e [3.860979702631594]
我々は,Fermi National Accelerator Laboratory (Fermilab) におけるMuon to Electron Conversion Experiment (Mu2e) における均一な陽子ビーム強度の伝達を維持することを目的とした,新しいPPOアルゴリズムを提案する。
我々の主な目的は、一貫した強度プロファイルを確保するために、一貫した強度プロファイルを確保するために、スピル制御システム(SRS)パラメータのリアルタイムフィードバックとキャリブレーションをミリ秒のタイムスケールで実現する自動制御器を作成することにある。
論文 参考訳(メタデータ) (2023-12-28T21:35:20Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。
敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。
我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文 参考訳(メタデータ) (2022-05-27T17:40:32Z) - On Centralized and Distributed Mirror Descent: Exponential Convergence
Analysis Using Quadratic Constraints [8.336315962271396]
ミラー降下(MD)は、勾配降下(GD)を含むいくつかのアルゴリズムを仮定する強力な一階最適化手法である。
本研究では,強い凸と滑らかな問題に対して,集中型および分散型のMDの正確な収束率について検討した。
論文 参考訳(メタデータ) (2021-05-29T23:05:56Z) - Bilevel Online Adaptation for Out-of-Domain Human Mesh Reconstruction [94.25865526414717]
本稿では,事前に訓練されたヒトメッシュ再構築モデルをドメイン外ストリーミングビデオに適応させるという新たな問題を検討する。
重みプローブと重み更新の2つのステップに全体多対象の最適化プロセスを分割するBilevel Online Adaptationを提案します。
BOAが2つのヒューマンメッシュ再構築ベンチマークで最先端の結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2021-03-30T15:47:58Z) - Online mirror descent and dual averaging: keeping pace in the dynamic
case [11.572321455920164]
オンラインミラー降下(OMD)と二重平均化(DA)は、オンライン凸最適化の基本的なアルゴリズムである。
我々はOMDアルゴリズムを安定化と呼ぶ単純な手法で修正する。
安定化とDAを持つOMDが、動的学習率の下でも、多くのアプリケーションで同じパフォーマンス保証を享受していることを示します。
論文 参考訳(メタデータ) (2020-06-03T23:41:40Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。