論文の概要: CLASP: An online learning algorithm for Convex Losses And Squared Penalties
- arxiv url: http://arxiv.org/abs/2601.16072v2
- Date: Sat, 24 Jan 2026 07:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 13:23:48.808566
- Title: CLASP: An online learning algorithm for Convex Losses And Squared Penalties
- Title(参考訳): CLASP: Convex LossesとSquared Penaltiesのためのオンライン学習アルゴリズム
- Authors: Ricardo N. Ferreira, João Xavier, Cláudia Soares,
- Abstract要約: 本稿では,2乗制約違反を伴う累積損失を最小限に抑えるアルゴリズムであるCLASPを紹介する。
凸損失の場合、CLASPは後悔の$Oleft(Tmax,1-right)$と累積二乗ペナルティ$Oleft(T1-right)$ for any $in (0,1)$を達成する。
最も重要なことは、強い凸問題に対して、CLASPは後悔と累積二乗のペナルティの両方に関する最初の対数保証を提供する。
- 参考スコア(独自算出の注目度): 1.096028999747108
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study Constrained Online Convex Optimization (COCO), where a learner chooses actions iteratively, observes both unanticipated convex loss and convex constraint, and accumulates loss while incurring penalties for constraint violations. We introduce CLASP (Convex Losses And Squared Penalties), an algorithm that minimizes cumulative loss together with squared constraint violations. Our analysis departs from prior work by fully leveraging the firm non-expansiveness of convex projectors, a proof strategy not previously applied in this setting. For convex losses, CLASP achieves regret $O\left(T^{\max\{β,1-β\}}\right)$ and cumulative squared penalty $O\left(T^{1-β}\right)$ for any $β\in (0,1)$. Most importantly, for strongly convex problems, CLASP provides the first logarithmic guarantees on both regret and cumulative squared penalty. In the strongly convex case, the regret is upper bounded by $O( \log T )$ and the cumulative squared penalty is also upper bounded by $O( \log T )$.
- Abstract(参考訳): 本研究では,COCO(Constrained Online Convex Optimization, 制約付きオンライン凸最適化)について検討し, 学習者が反復的に行動を選択し, 予期しない凸損失と凸制約の両方を観察し, 制約違反に対する罰則を課しながら損失を蓄積する。
CLASP(Convex Losses And Squared Penalties)は,累積損失を最小限に抑えるアルゴリズムである。
本研究は, コンベックスプロジェクタの堅固な非拡張性を十分に活用することで, 従来の研究から逸脱する。
凸損失に対して、CLASPは、任意の$β\in (0,1)$に対して、後悔の$O\left(T^{\max\{β,1-β\}}\right)$と累積二乗ペナルティ$O\left(T^{1-β}\right)$を達成している。
最も重要なことは、強い凸問題に対して、CLASPは後悔と累積二乗のペナルティの両方に関する最初の対数保証を提供する。
強凸の場合、後悔は$O( \log T )$で上界、累積二乗ペナルティも$O( \log T )$で上界となる。
関連論文リスト
- An Optimistic Algorithm for Online Convex Optimization with Adversarial Constraints [55.2480439325792]
逆制約を伴うオンライン凸最適化(OCO)について検討する。
本稿では,損失関数と制約関数の予測にアルゴリズムがアクセス可能な設定に着目する。
以上の結果から,現在のO(sqrtT) $ regret と $ tildeO(sqrtT) $ cumulative constraint violation の改善が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T03:06:42Z) - Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
我々は,個別かつ不可逆な意思決定を対象とするオンライン学習と最適化の問題を定義した。
各期間において、意思決定者は、オープンする施設を選択し、それぞれの成功に関する情報を受け取り、将来の決定を導くために分類モデルを更新する。
目的は,多数の施設を対象とする地平線を特徴とし,カバー対象を反映するチャンス制約の下で施設開口を最小化することである。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - Multi-point Feedback of Bandit Convex Optimization with Hard Constraints [1.8130068086063336]
本研究では,学習者が損失関数の部分的情報に基づいて決定列を生成することを目的とした制約付き帯域凸最適化について検討する。
我々は、累積的テクスト制約違反を制約違反の指標として採用する。
我々のアルゴリズムは、凸損失関数と時間変化制約に対して、$O(d2Tmaxc,1-c)$ regret bounds と $O(d2T1-fracc2)$ cumulative hard constraint violation bounds を得る。
論文 参考訳(メタデータ) (2023-10-17T02:43:22Z) - Distributed Online Convex Optimization with Adversarial Constraints:
Reduced Cumulative Constraint Violation Bounds under Slater's Condition [29.809415829907525]
本稿では,逆制約を伴う分散オンライン凸最適化について考察する。
エージェントはネットワークの後悔と累積的制約違反を最小限にするために協力する。
我々の知る限り、この論文は、(分散)オンライン凸最適化における(ネットワーク)累積制約違反境界を敵制約付きで達成した最初のものである。
論文 参考訳(メタデータ) (2023-05-31T19:39:15Z) - Towards Painless Policy Optimization for Constrained MDPs [46.12526917024248]
我々は、無限の地平線における政策最適化、$gamma$-discounted constrained Markov decision process (CMDP)について研究する。
我々の目標は、小さな制約違反で大きな期待された報酬を達成する政策を返却することである。
本稿では,任意のアルゴリズムに対して,報酬の準最適性と制約違反を拘束できる汎用的原始双対フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-11T15:08:09Z) - Regret and Cumulative Constraint Violation Analysis for Online Convex
Optimization with Long Term Constraints [24.97580261894342]
本稿では,長期的制約を伴うオンライン凸最適化について考察する。
新たなアルゴリズムが最初に提案され、静的後悔のために$mathcalO(Tmaxc,1-c)$bound、累積制約違反のために$mathcalO(T(1-c)/2)$boundを達成する。
論文 参考訳(メタデータ) (2021-06-09T15:18:06Z) - Private Stochastic Convex Optimization: Optimal Rates in $\ell_1$
Geometry [69.24618367447101]
対数要因まで $(varepsilon,delta)$-differently private の最適過剰人口損失は $sqrtlog(d)/n + sqrtd/varepsilon n.$ です。
損失関数がさらなる滑らかさの仮定を満たすとき、余剰損失は$sqrtlog(d)/n + (log(d)/varepsilon n)2/3で上界(対数因子まで)であることが示される。
論文 参考訳(メタデータ) (2021-03-02T06:53:44Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。