論文の概要: Optimistic Online Convex Optimization in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2203.14520v1
- Date: Mon, 28 Mar 2022 06:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 17:19:41.331597
- Title: Optimistic Online Convex Optimization in Dynamic Environments
- Title(参考訳): 動的環境における最適オンライン凸最適化
- Authors: Qing-xin Meng, Jian-wei Liu
- Abstract要約: 我々は,Ader の Greedy Projection (GP) と normalized Exponentated Subgradient (NES) を Optimistic-GP と Optimistic-NES に置き換え,対応するアルゴリズム ONES-OGP を命名する。
M_T$, $widetildeM_T$, $V_T+1_L2rholeft(rho+2 P_Tright)leqslantvarrho2 V_TD という3つの特徴項を導入する。
- 参考スコア(独自算出の注目度): 3.2721751217329977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the optimistic online convex optimization problem in
dynamic environments. Existing works have shown that Ader enjoys an
$O\left(\sqrt{\left(1+P_T\right)T}\right)$ dynamic regret upper bound, where
$T$ is the number of rounds, and $P_T$ is the path length of the reference
strategy sequence. However, Ader is not environment-adaptive. Based on the fact
that optimism provides a framework for implementing environment-adaptive, we
replace Greedy Projection (GP) and Normalized Exponentiated Subgradient (NES)
in Ader with Optimistic-GP and Optimistic-NES respectively, and name the
corresponding algorithm ONES-OGP. We also extend the doubling trick to the
adaptive trick, and introduce three characteristic terms naturally arise from
optimism, namely $M_T$, $\widetilde{M}_T$ and $V_T+1_{L^2\rho\left(\rho+2
P_T\right)\leqslant\varrho^2 V_T}D_T$, to replace the dependence of the dynamic
regret upper bound on $T$. We elaborate ONES-OGP with adaptive trick and its
subgradient variation version, all of which are environment-adaptive.
- Abstract(参考訳): 本稿では,動的環境における楽観的なオンライン凸最適化問題について検討する。
既存の研究によると、Ader は $O\left(\sqrt{\left(1+P_T\right)T}\right)$ dynamic regret upper bound を楽しみ、$T$ はラウンド数、$P_T$ は参照戦略列のパス長である。
しかし、Aderは環境適応的ではない。
最適化が環境適応性を実現するためのフレームワークを提供するという事実に基づいて,Ader の Greedy Projection (GP) と Normalized Exponentated Subgradient (NES) をそれぞれOptimistic-GP と Optimistic-NES に置き換え,対応するアルゴリズム ONES-OGP を命名する。
さらに2倍のトリックを適応的なトリックに拡張し、m_t$, $\widetilde{m}_t$, $v_t+1_{l^2\rho\left(\rho+2 p_t\right)\leqslant\varrho^2 v_t}d_t$という3つの特性項を導入することで、動的後悔の上限である$t$の依存性を置き換える。
我々は,ONES-OGPの適応的トリックとその段階的変動バージョンを詳述し,これらはすべて環境適応型である。
関連論文リスト
- Online Linear Regression in Dynamic Environments via Discounting [38.15622843661145]
最適の静的および動的後悔保証を実現するオンライン線形回帰アルゴリズムを開発した。
R_T(vecu)le Oleft(dlog(T)vee sqrtdP_Tgamma(vecu)$, where $P_Tgamma(vecu)$はコンパレータシーケンスの可変性の尺度であり、この結果が得られたことを示す。
論文 参考訳(メタデータ) (2024-05-29T15:17:53Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - Non-stationary Online Convex Optimization with Arbitrary Delays [50.46856739179311]
本稿では,非定常環境における遅延オンライン凸最適化(OCO)について検討する。
まず, 遅延勾配の勾配降下ステップを, 到着順に応じて行う単純なアルゴリズム, DOGDを提案する。
DOGDが達成した動的後悔境界を$O(sqrtbardT(P_T+1))$に削減する改良アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-20T07:54:07Z) - Best-of-Three-Worlds Linear Bandit Algorithm with Variance-Adaptive
Regret Bounds [27.92755687977196]
本稿では,2つの階層の環境に適応する線形帯域幅アルゴリズムを提案する。
高いレベルでは、提案アルゴリズムは様々な種類の環境に適応する。
提案アルゴリズムは、最適動作に対する累積損失のすべてに依存する、データ依存の後悔境界を有する。
論文 参考訳(メタデータ) (2023-02-24T00:02:24Z) - Improved Dynamic Regret for Online Frank-Wolfe [54.690867216880356]
オンライン凸最適化のための効率的なプロジェクションフリーアルゴリズムであるFrank-Wolfe (OFW) の動的後悔について検討する。
本稿では,FWの高速収束率をオフライン最適化からオンライン最適化に拡張することにより,OFWの動的後悔境界の改善を導出する。
論文 参考訳(メタデータ) (2023-02-11T07:19:51Z) - A Unified Analysis Method for Online Optimization in Normed Vector Space [3.615256443481602]
正規化されたベクトル空間におけるオンライン最適化のための一般化されたコサイン則に依存する統一解析法を提案する。
オンラインゲームにおける損失をモノトーン演算子に置き換えることで,オンラインコンベックスをオンラインモノトーン最適化に拡張する。
論文 参考訳(メタデータ) (2021-12-22T18:48:19Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary
MDPs [45.6318149525364]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
本稿では,$underlinetextp$eriodically $underlinetextr$estarted $underlinetexto$ptimistic $underlinetextp$olicy $underlinetexto$ptimization algorithm (PROPO)を提案する。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Private Stochastic Convex Optimization: Optimal Rates in $\ell_1$
Geometry [69.24618367447101]
対数要因まで $(varepsilon,delta)$-differently private の最適過剰人口損失は $sqrtlog(d)/n + sqrtd/varepsilon n.$ です。
損失関数がさらなる滑らかさの仮定を満たすとき、余剰損失は$sqrtlog(d)/n + (log(d)/varepsilon n)2/3で上界(対数因子まで)であることが示される。
論文 参考訳(メタデータ) (2021-03-02T06:53:44Z) - Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization [51.23789922123412]
我々は,バンディットフィードバックを用いてオンライン学習を学習する。
learnerは、コスト/リワード関数が"pseudo-1d"構造を許可するゼロ次オラクルのみにアクセスできる。
我々は、$T$がラウンドの数である任意のアルゴリズムの後悔のために$min(sqrtdT、T3/4)$の下限を示しています。
ランダム化オンライングラデーション下降とカーネル化指数重み法を組み合わせた新しいアルゴリズムsbcalgを提案し,疑似-1d構造を効果的に活用する。
論文 参考訳(メタデータ) (2021-02-15T08:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。