論文の概要: Online Optimization with Feedback Delay and Nonlinear Switching Cost
- arxiv url: http://arxiv.org/abs/2111.00095v1
- Date: Fri, 29 Oct 2021 21:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 18:04:10.852423
- Title: Online Optimization with Feedback Delay and Nonlinear Switching Cost
- Title(参考訳): フィードバック遅延と非線形切替コストを考慮したオンライン最適化
- Authors: Weici Pan, Guanya Shi, Yiheng Lin, Adam Wierman
- Abstract要約: 我々は,学習者が$k$-round $textitdelayed feedback$$を入力したオンライン最適化のバリエーションについて検討する。
新たな反復正規化オンラインバランスド Descent (iROBD) アルゴリズムは,O(L2k)$の一定次元自由競争比を持つことを示す。
- 参考スコア(独自算出の注目度): 16.975704972827305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a variant of online optimization in which the learner receives
$k$-round $\textit{delayed feedback}$ about hitting cost and there is a
multi-step nonlinear switching cost, i.e., costs depend on multiple previous
actions in a nonlinear manner. Our main result shows that a novel Iterative
Regularized Online Balanced Descent (iROBD) algorithm has a constant,
dimension-free competitive ratio that is $O(L^{2k})$, where $L$ is the
Lipschitz constant of the switching cost. Additionally, we provide lower bounds
that illustrate the Lipschitz condition is required and the dependencies on $k$
and $L$ are tight. Finally, via reductions, we show that this setting is
closely related to online control problems with delay, nonlinear dynamics, and
adversarial disturbances, where iROBD directly offers constant-competitive
online policies.
- Abstract(参考訳): そこで本研究では, 学習者が最大コストについて$k$-round $\textit{delayed feedback}$を受け取り, 複数ステップの非線形スイッチングコスト, すなわち, 従来の複数の動作に非線形な方法で依存するコストが存在するオンライン最適化の変種について検討する。
本結果から,新しい反復正規化オンラインバランス Descent (iROBD) アルゴリズムは,スイッチングコストのリプシッツ定数である$O(L^{2k})$が一定で,次元自由な競合比を持つことを示した。
さらに、リプシッツ条件が要求され、$k$と$L$への依存が厳密であることを示す低い境界を提供する。
最後に,iROBDが直接競合するオンラインポリシーを提供する場合,遅延,非線形ダイナミクス,および敵の障害を伴うオンライン制御問題に密接に関連していることを示す。
関連論文リスト
- Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedback [56.6950165117658]
我々は、暗黙の報酬が未知パラメータの線形関数である、好みフィードバックによるオフライン強化学習について検討する。
そこで我々は,UnderlineLocally Underline Underline Weights あるいは sc RL-LOW を用いたアルゴリズムを提案する。
我々は,sc RL-LOWの次数次最適性を示すため,単純な後悔マッチングの指数において,下限と上限が順序的に一致することが観察された。
論文 参考訳(メタデータ) (2024-06-18T02:03:12Z) - Regret Analysis of Policy Optimization over Submanifolds for Linearly
Constrained Online LQG [12.201535821920624]
制御器に与えられた線形制約を持つオンライン線形二次ガウス問題について検討する。
関数列の第1次および第2次情報に対する予測に基づいてオンラインコントローラを提供するオンライン楽観的ニュートン(OONM)を提案する。
論文 参考訳(メタデータ) (2024-03-13T14:06:18Z) - Online Convex Optimization with Switching Cost and Delayed Gradients [7.903539618132858]
オンラインアルゴリズムは、前の目的関数の勾配情報のみを用いて、その動作を選択することができる。
2次切替コストのOCO問題の競合比は、少なくとも4(L + 5) + frac16(L + 5)mu$である。
2次・線形切替コストの最適競争比率は、制限情報設定において根本的に異なると結論付けている。
論文 参考訳(メタデータ) (2023-10-18T11:06:06Z) - Rate-Optimal Online Convex Optimization in Adaptive Linear Control [0.0]
コストの逆変化による未知凸線形系の制御について考察する。
最適線形後角関数を実現するための最初の計算式を提示する。
論文 参考訳(メタデータ) (2022-06-03T07:32:11Z) - Online Nonsubmodular Minimization with Delayed Costs: From Full
Information to Bandit Feedback [98.7678704343537]
我々は,オンラインおよび近似的オンライン帯域勾配勾配アルゴリズムのいくつかの変種に対する後悔の保証を,特別な構造を持つ非部分モジュラ関数のクラスに焦点をあてる。
我々は,決定の選択と帰属費用の受け取りの遅れが無拘束である場合でも,エージェントの完全な情報と盗賊のフィードバック設定に対する後悔の限界を導出する。
論文 参考訳(メタデータ) (2022-05-15T08:27:12Z) - Smoothed Online Convex Optimization Based on Discounted-Normal-Predictor [68.17855675511602]
円滑なオンライン凸最適化(SOCO)のためのオンライン予測戦略について検討する。
提案アルゴリズムは,各区間の切替コストで適応的後悔を最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2022-05-02T08:48:22Z) - Robust Online Control with Model Misspecification [96.23493624553998]
本研究では,未知の非線形力学系のモデル不特定性を考慮したオンライン制御について検討する。
本研究は, 線形近似からの偏差を許容できる程度に測定できるロバスト性に着目した。
論文 参考訳(メタデータ) (2021-07-16T07:04:35Z) - Revisiting Smoothed Online Learning [70.09792747315323]
オンライン学習者がヒットコストとスイッチングコストの両方に苦しむスムーズなオンライン学習の問題を調査します。
競争比を縛るために、各ラウンドで打つコストが学習者に知られていると仮定し、打つコストと切り換えコストの重み付け合計を単純に最小化する勾配アルゴリズムを調査します。
論文 参考訳(メタデータ) (2021-02-13T14:15:55Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Online Optimization with Memory and Competitive Control [43.974996526016305]
本稿では,メモリを用いたオンライン最適化問題に対する競合アルゴリズムを提案する。
本稿では,メモリによるオンライン最適化と,対向的障害を伴うオンライン制御の関連性を示す。
論文 参考訳(メタデータ) (2020-02-13T02:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。