論文の概要: On Dynamic Regret and Constraint Violations in Constrained Online Convex
Optimization
- arxiv url: http://arxiv.org/abs/2301.09808v1
- Date: Tue, 24 Jan 2023 04:22:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 14:28:59.872145
- Title: On Dynamic Regret and Constraint Violations in Constrained Online Convex
Optimization
- Title(参考訳): 制約付きオンライン凸最適化における動的回帰と制約違反について
- Authors: Rahul Vaze
- Abstract要約: 提案するアルゴリズムは,現在の動作の周囲に適度に選択された集合上の射影勾配勾配を追従する。
動的後悔と制約違反の両方が、連続する最適動作間の距離の和であるパス長によって順序的に束縛されていることを示す。
- 参考スコア(独自算出の注目度): 17.412117389855222
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A constrained version of the online convex optimization (OCO) problem is
considered. With slotted time, for each slot, first an action is chosen.
Subsequently the loss function and the constraint violation penalty evaluated
at the chosen action point is revealed. For each slot, both the loss function
as well as the function defining the constraint set is assumed to be smooth and
strongly convex. In addition, once an action is chosen, local information about
a feasible set within a small neighborhood of the current action is also
revealed. An algorithm is allowed to compute at most one gradient at its point
of choice given the described feedback to choose the next action. The goal of
an algorithm is to simultaneously minimize the dynamic regret (loss incurred
compared to the oracle's loss) and the constraint violation penalty (penalty
accrued compared to the oracle's penalty). We propose an algorithm that follows
projected gradient descent over a suitably chosen set around the current
action. We show that both the dynamic regret and the constraint violation is
order-wise bounded by the {\it path-length}, the sum of the distances between
the consecutive optimal actions. Moreover, we show that the derived bounds are
the best possible.
- Abstract(参考訳): オンライン凸最適化(oco)問題の制約付きバージョンが検討されている。
スロットタイムでは、各スロットに対して、最初にアクションが選択される。
その後、選択されたアクションポイントで評価された損失機能及び制約違反罰を明らかにする。
各スロットに対して、損失関数と制約集合を定義する関数の両方が滑らかで強凸であると仮定される。
また、アクションが選択されると、現在のアクションの小さな近傍で実現可能なセットに関するローカル情報も明らかにする。
アルゴリズムは、記述されたフィードバックに基づいて選択時点で最大1つの勾配を計算でき、次のアクションを選択することができる。
アルゴリズムの目標は、ダイナミックな後悔(オラクルの損失と比較して損失)と制約違反のペナルティ(オラクルのペナルティと比較して罰金)を同時に最小化することである。
提案するアルゴリズムは,現在の動作の周囲に適度に選択された集合上の射影勾配勾配を追従する。
動的後悔と制約違反の両方が、連続する最適動作間の距離の和である {\it path-length} によって順序的に有界であることを示す。
さらに、導出した境界が最良であることを示す。
関連論文リスト
- Distributed Online Bandit Nonconvex Optimization with One-Point Residual Feedback via Dynamic Regret [10.700891331004799]
本稿では,非損失関数を用いた分散オンライン帯域最適化問題について検討する。
プレイヤーは敵を選択し、そのプレイヤーに任意の非線形損失関数を割り当てる。
予想されるアルゴリズムの後悔は、2点偏差を用いた既存のアルゴリズムに匹敵する。
論文 参考訳(メタデータ) (2024-09-24T02:37:33Z) - Multi-point Feedback of Bandit Convex Optimization with Hard Constraints [1.8130068086063336]
本研究では,学習者が損失関数の部分的情報に基づいて決定列を生成することを目的とした制約付き帯域凸最適化について検討する。
我々は、累積的テクスト制約違反を制約違反の指標として採用する。
我々のアルゴリズムは、凸損失関数と時間変化制約に対して、$O(d2Tmaxc,1-c)$ regret bounds と $O(d2T1-fracc2)$ cumulative hard constraint violation bounds を得る。
論文 参考訳(メタデータ) (2023-10-17T02:43:22Z) - Accelerated First-Order Optimization under Nonlinear Constraints [73.2273449996098]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。
これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文 参考訳(メタデータ) (2023-02-01T08:50:48Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - On Constraints in First-Order Optimization: A View from Non-Smooth
Dynamical Systems [99.59934203759754]
本稿では,スムーズな制約付き最適化のための一階法について紹介する。
提案手法の2つの特徴は、実現可能な集合全体の投影や最適化が避けられることである。
結果として得られるアルゴリズムの手順は、制約が非線形であっても簡単に実装できる。
論文 参考訳(メタデータ) (2021-07-17T11:45:13Z) - Regret and Cumulative Constraint Violation Analysis for Online Convex
Optimization with Long Term Constraints [24.97580261894342]
本稿では,長期的制約を伴うオンライン凸最適化について考察する。
新たなアルゴリズムが最初に提案され、静的後悔のために$mathcalO(Tmaxc,1-c)$bound、累積制約違反のために$mathcalO(T(1-c)/2)$boundを達成する。
論文 参考訳(メタデータ) (2021-06-09T15:18:06Z) - Regret and Cumulative Constraint Violation Analysis for Distributed
Online Constrained Convex Optimization [24.97580261894342]
本稿では,エージェントネットワーク上の時間的制約を伴う分散オンライン凸最適化問題について考察する。
フルインフォメーションとバンディットフィードバックの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-01T18:28:53Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Dynamic Regret of Convex and Smooth Functions [93.71361250701075]
非定常環境におけるオンライン凸最適化について検討する。
パフォーマンス指標として動的後悔を選択します。
本研究では, 滑らかさを活かして, 動的後悔をさらに高めることが可能であることを示す。
論文 参考訳(メタデータ) (2020-07-07T14:10:57Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。