Fugu-MT 論文翻訳(概要): Revisiting Smoothed Online Learning

論文の概要: Revisiting Smoothed Online Learning

arxiv url: http://arxiv.org/abs/2102.06933v1
Date: Sat, 13 Feb 2021 14:15:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-16 15:58:05.402127
Title: Revisiting Smoothed Online Learning
Title（参考訳）: Smoothed Online Learningを再考
Authors: Lijun Zhang, Wei Jiang, Shiyin Lu, Tianbao Yang
Abstract要約: オンライン学習者がヒットコストとスイッチングコストの両方に苦しむスムーズなオンライン学習の問題を調査します。競争比を縛るために、各ラウンドで打つコストが学習者に知られていると仮定し、打つコストと切り換えコストの重み付け合計を単純に最小化する勾配アルゴリズムを調査します。
参考スコア（独自算出の注目度）: 70.09792747315323
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we revisit the problem of smoothed online learning, in which the online learner suffers both a hitting cost and a switching cost, and target two performance metrics: competitive ratio and dynamic regret with switching cost. To bound the competitive ratio, we assume the hitting cost is known to the learner in each round, and investigate the greedy algorithm which simply minimizes the weighted sum of the hitting cost and the switching cost. Our theoretical analysis shows that the greedy algorithm, although straightforward, is $1+ \frac{2}{\alpha}$-competitive for $\alpha$-polyhedral functions, $1+O(\frac{1}{\lambda})$-competitive for $\lambda$-quadratic growth functions, and $1 + \frac{2}{\sqrt{\lambda}}$-competitive for convex and $\lambda$-quadratic growth functions. To bound the dynamic regret with switching cost, we follow the standard setting of online convex optimization, in which the hitting cost is convex but hidden from the learner before making predictions. We modify Ader, an existing algorithm designed for dynamic regret, slightly to take into account the switching cost when measuring the performance. The proposed algorithm, named as Smoothed Ader, attains an optimal $O(\sqrt{T(1+P_T)})$ bound for dynamic regret with switching cost, where $P_T$ is the path-length of the comparator sequence. Furthermore, if the hitting cost is accessible in the beginning of each round, we obtain a similar guarantee without the bounded gradient condition.
Abstract（参考訳）: 本稿では,オンライン学習者がヒットコストと切り替えコストの両方に苦しむスムーズなオンライン学習の問題を再考し,競争率と切り替えコストに対する動的後悔という2つのパフォーマンス指標を目標とした。競争比を縛るために、各ラウンドで打つコストが学習者に知られていると仮定し、打つコストと切り換えコストの重み付け合計を単純に最小化する勾配アルゴリズムを調査します。我々の理論的解析によれば、グリーディアルゴリズムは単純ではあるが、$\alpha$-polyhedral関数の$+ \frac{2}{\alpha}$-competitive、$\lambda$-quadratic成長関数の$+O(\frac{1}{\lambda})$-competitive、$\lambda$-quadratic成長関数の$+ \frac{2}{\sqrt{\lambda}}$-competitive、$\lambda$-quadratic成長関数の$+ \frac{2}{\sqrt{\lambda}}$-competitiveである。スイッチングコストに対する動的後悔を和らげるために、我々はオンライン凸最適化の標準設定に従い、ヒットコストは凸だが、予測を行う前に学習者から隠蔽される。動的後悔のために設計された既存のアルゴリズムであるAderを修正し、パフォーマンスを測定する際のスイッチングコストをわずかに考慮します。提案アルゴリズムはSmoothed Aderと名付けられ, 動的後悔に対して最適な$O(\sqrt{T(1+P_T)})を切替コストで有界とし, コンパレータ列のパス長を$P_T$とする。さらに,各ラウンドの始めに打上げコストが利用可能であれば,境界勾配条件を使わずに同様の保証が得られる。

関連論文リスト

Online Convex Optimization with Switching Cost with Only One Single Gradient Evaluation [9.174655018861504]
スイッチングコストが線形である場合には、フラガル設定に対して最適順序の競合比を持つオンラインアルゴリズムを導出する。勾配情報がノイズが多い場合には、競合比が2次的に大きくなるオンラインアルゴリズムが導出される。
論文参考訳（メタデータ） (2025-07-05T19:08:11Z)
Alternating Regret for Online Convex Optimization [43.12477663757647]
連続Hedgeアルゴリズムは,任意の逆数$次元OCO問題に対して,$tildemathcalO(dfrac23Tfrac13)$の繰り返し後悔を実現することを示す。例えば、Regret Matching 変種に対する$Omega(sqrtT)$ lower boundなどである。
論文参考訳（メタデータ） (2025-02-18T04:32:52Z)
Near-optimal Regret Using Policy Optimization in Online MDPs with Aggregate Bandit Feedback [49.84060509296641]
オンライン有限水平マルコフ決定過程を逆向きに変化した損失と総括的帯域幅フィードバック(フルバンド幅)を用いて研究する。この種のフィードバックの下では、エージェントは、軌跡内の各中間段階における個々の損失よりも、軌跡全体に生じる総損失のみを観察する。この設定のための最初のポリシー最適化アルゴリズムを紹介します。
論文参考訳（メタデータ） (2025-02-06T12:03:24Z)
Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文参考訳（メタデータ） (2024-02-14T07:52:00Z)
Best of Both Worlds Guarantees for Smoothed Online Quadratic Optimization [9.449153668916098]
各ラウンド$t$において、プレイヤーが2次的打撃コストと2次攻撃コストに応じてアクション$x_tをプレイし、アクションを切り替えるための2乗$ell$-normコストを加算する、スムーズなオンライン最適化(SOQO)問題について検討する。この問題クラスは、スマートグリッド管理、適応制御、データセンター管理など、幅広いアプリケーションドメインと強いつながりを持っています。本稿では, 最適に近い性能を同時に達成しつつ, 強健な対角性能を得るベスト・オブ・ザ・ワールドス・アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-31T22:59:23Z)
Online Convex Optimization with Switching Cost and Delayed Gradients [7.903539618132858]
オンラインアルゴリズムは、前の目的関数の勾配情報のみを用いて、その動作を選択することができる。 2次切替コストのOCO問題の競合比は、少なくとも4(L + 5) + frac16(L + 5)mu$である。 2次・線形切替コストの最適競争比率は、制限情報設定において根本的に異なると結論付けている。
論文参考訳（メタデータ） (2023-10-18T11:06:06Z)
Non-stationary Projection-free Online Learning with Dynamic and Adaptive Regret Guarantees [36.746745619968024]
本研究では,非定常プロジェクションフリーオンライン学習について検討し,動的後悔と適応的後悔を選択して評価を行った。我々の結果は、プロジェクションフリーオンライン学習における最初の一般的な動的後悔境界であり、既存の$mathcalO(T3/4)$static regretを復元することができる。本稿では,$tildemathcalO(tau3/4)$ アダプティブリフレッシュバウンドを長さ$tauの任意の間隔で達成するためのプロジェクションフリーな手法を提案する。
論文参考訳（メタデータ） (2023-05-19T15:02:10Z)
Optimal Stochastic Non-smooth Non-convex Optimization through Online-to-Non-convex Conversion [56.92236659731376]
本稿では,新しい解析手法を用いて,未知の非平滑な目的を最適化するアルゴリズムを提案する。決定論的二階スムーズな目的のために、先進的な楽観的なオンライン学習技術を適用することで、新しい$O(delta0.5)All$が最適または最もよく知られた結果の回復を可能にする。
論文参考訳（メタデータ） (2023-02-07T22:09:20Z)
Computationally Efficient Horizon-Free Reinforcement Learning for Linear Mixture MDPs [111.75736569611159]
線形混合MDPのための計算効率のよい初めての地平線フリーアルゴリズムを提案する。我々のアルゴリズムは、未知の遷移力学に対する重み付き最小二乗推定器に適応する。これにより、$sigma_k2$'sが知られているときに、この設定で最もよく知られたアルゴリズムも改善される。
論文参考訳（メタデータ） (2022-05-23T17:59:18Z)
Smoothed Online Convex Optimization Based on Discounted-Normal-Predictor [68.17855675511602]
円滑なオンライン凸最適化(SOCO)のためのオンライン予測戦略について検討する。提案アルゴリズムは,各区間の切替コストで適応的後悔を最小限に抑えることができることを示す。
論文参考訳（メタデータ） (2022-05-02T08:48:22Z)
Online Convex Optimization with Continuous Switching Constraint [78.25064451417082]
連続的なスイッチング制約を伴うオンライン凸最適化の問題を紹介する。強い凸関数の場合、後悔境界は$O(log T)$ for $S=Omega(log T)$、$O(minT/exp(S)+S,T)$ for $S=O(log T)$に改善できることを示す。
論文参考訳（メタデータ） (2021-03-21T11:43:35Z)
Lazy OCO: Online Convex Optimization on a Switching Budget [34.936641201844054]
我々は、オンライン凸最適化の変形について研究し、プレイヤーは、T$ラウンドを通して、最大$S$で決定を切り替えることを許されている。離散的な決定セットの事前の作業や、より最近の連続的な設定では、適応的な逆数でのみ、同様の問題が解決されている。
論文参考訳（メタデータ） (2021-02-07T14:47:19Z)
Dynamic Regret of Convex and Smooth Functions [93.71361250701075]
非定常環境におけるオンライン凸最適化について検討する。パフォーマンス指標として動的後悔を選択します。本研究では, 滑らかさを活かして, 動的後悔をさらに高めることが可能であることを示す。
論文参考訳（メタデータ） (2020-07-07T14:10:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。