Fugu-MT 論文翻訳(概要): Optimal Algorithms for Online Convex Optimization with Adversarial Constraints

論文の概要: Optimal Algorithms for Online Convex Optimization with Adversarial Constraints

arxiv url: http://arxiv.org/abs/2310.18955v3
Date: Sun, 27 Oct 2024 16:37:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.662556
Title: Optimal Algorithms for Online Convex Optimization with Adversarial Constraints
Title（参考訳）: 逆制約を考慮したオンライン凸最適化のための最適アルゴリズム
Authors: Abhishek Sinha, Rahul Vaze,
Abstract要約: COCOでは、そのラウンドのアクションを選択した後、学習者に凸コスト関数と凸制約関数を明らかにする。我々は、オンラインポリシーが、制限的な仮定なしで、同時に$O(sqrtT)$ regretと$tildeO(sqrtT)$ CCVを達成できることを示します。
参考スコア（独自算出の注目度）: 16.99491218081617
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: A well-studied generalization of the standard online convex optimization (OCO) framework is constrained online convex optimization (COCO). In COCO, on every round, a convex cost function and a convex constraint function are revealed to the learner after it chooses the action for that round. The objective is to design an online learning policy that simultaneously achieves a small regret while ensuring a small cumulative constraint violation (CCV) against an adaptive adversary interacting over a horizon of length $T$. A long-standing open question in COCO is whether an online policy can simultaneously achieve $O(\sqrt{T})$ regret and $\tilde{O}(\sqrt{T})$ CCV without any restrictive assumptions. For the first time, we answer this in the affirmative and show that a simple first-order policy can simultaneously achieve these bounds. Furthermore, in the case of strongly convex cost and convex constraint functions, the regret guarantee can be improved to $O(\log T)$ while keeping the CCV bound the same as above. We establish these results by effectively combining adaptive OCO policies as a blackbox with Lyapunov optimization - a classic tool from control theory. Surprisingly, the analysis is short and elegant.
Abstract（参考訳）: 標準オンライン凸最適化(OCO)フレームワークのよく研究された一般化は、制約付きオンライン凸最適化(COCO)である。 COCOでは、各ラウンドにおいて、そのラウンドのアクションを選択した後、コンベックスコスト関数とコンベックス制約関数を学習者に開示する。本研究の目的は,時間的制約違反(CCV)を回避しつつ,最小限の後悔を同時に達成するオンライン学習ポリシーを設計することである。 COCOにおける長年のオープンな疑問は、オンラインポリシーが、制限的な仮定なしで、同時に$O(\sqrt{T})$ regretと$\tilde{O}(\sqrt{T})$ CCVを達成できるかどうかである。初めて、これを肯定的に答え、単純な一階述語ポリシーがこれらの境界を同時に達成できることを示します。さらに、強い凸コストと凸制約関数の場合、CCVを上と同じ境界に保ちながら、後悔の保証を$O(\log T)$に改善することができる。我々は,適応型OCOポリシーをブラックボックスとして,制御理論の古典的なツールであるリアプノフ最適化と効果的に組み合わせて,これらの結果を確立する。驚くべきことに、分析は短くエレガントだ。

関連論文リスト

Optimal Bounds for Adversarial Constrained Online Convex Optimization [1.9336815376402723]
後悔とCCVの両方で最適な$O(sqrtT)$バウンドが得られることを示す。制約関数に最小限のペナルティを課す新しい代理損失関数に基づいて、Follow-the-Regularized-Leader と Online Gradient Descent の両方が最適境界を達成することを示す。
論文参考訳（メタデータ） (2025-03-17T16:51:16Z)
Nearly Optimal Sample Complexity of Offline KL-Regularized Contextual Bandits under Single-Policy Concentrability [49.96531901205305]
我々は,オフラインの文脈的包帯に対する単一政治中心性の下でのサンプル複雑性を$tildeO(epsilon-1)$とするemphfirstアルゴリズムを提案する。我々の証明は、KL正則化の強い凸性と、真の報酬と悲観的推定子のギャップの条件的非負性を利用する。我々は,このアルゴリズムを文脈的デュエル帯域に拡張し,ほぼ最適なサンプル複雑性を実現する。
論文参考訳（メタデータ） (2025-02-09T22:14:45Z)
$O(\sqrt{T})$ Static Regret and Instance Dependent Constraint Violation for Constrained Online Convex Optimization [16.99491218081617]
目的は、静的な後悔と累積的制約違反(CCV)を同時に最小化することである。アルゴリズムは、$O(sqrtT)$と$mincV, O(sqrtTlog T)$のCCVの静的後悔を保証する。
論文参考訳（メタデータ） (2025-02-07T15:47:04Z)
Projection-free Algorithms for Online Convex Optimization with Adversarial Constraints [10.047668792033033]
本稿では,オンライン凸最適化(OCO)フレームワークの時間的逆制約による一般化について検討する。この問題では、凸判定セットから実行可能な動作を選択した後、各ラウンドのコスト関数とともに凸制約関数を$X,$とする。我々は,一ラウンドに1回,線形プログラム(LP)ソルバに1回コールする*プロジェクションフリー*オンラインポリシーを提案する。
論文参考訳（メタデータ） (2025-01-28T13:04:32Z)
Tight Bounds for Online Convex Optimization with Adversarial Constraints [16.99491218081617]
COCOでは、そのラウンドのアクションを選択した後、学習者に凸コスト関数と凸制約関数を明らかにする。我々は、オンラインポリシーが、制限的な仮定なしで、同時に$O(sqrtT)$ regretと$tildeO(sqrtT)$ CCVを達成できることを示します。
論文参考訳（メタデータ） (2024-05-15T12:37:03Z)
Optimistic Safety for Online Convex Optimization with Unknown Linear Constraints [31.526232903811533]
我々はOCO(Optimistically Safe OCO)と呼ぶアルゴリズムを導入し、そのアルゴリズムが$tildeO(sqrtT)$ regretと制約違反がないことを示す。静的線形制約の場合、これは同じ仮定の下で、以前の最もよく知られた $tildeO(T2/3)$ regret よりも改善される。時間的制約の場合、当社の作業は、$O(sqrtT)$ regretと$O(sqrtT)$ cumulative violationを示す既存の結果を補完します。
論文参考訳（メタデータ） (2024-03-09T04:01:39Z)
Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文参考訳（メタデータ） (2023-07-17T09:55:35Z)
Improved Dynamic Regret for Online Frank-Wolfe [54.690867216880356]
オンライン凸最適化のための効率的なプロジェクションフリーアルゴリズムであるFrank-Wolfe (OFW) の動的後悔について検討する。本稿では,FWの高速収束率をオフライン最適化からオンライン最適化に拡張することにより,OFWの動的後悔境界の改善を導出する。
論文参考訳（メタデータ） (2023-02-11T07:19:51Z)
Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。ソフトマージン条件下でのバニラQ関数の類似した結果を示す。我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文参考訳（メタデータ） (2023-02-05T14:22:41Z)
Rectified Pessimistic-Optimistic Learning for Stochastic Continuum-armed Bandit with Constraints [4.879346089164413]
ブラックボックスの報酬関数 $f(x)$ を、連続空間上のブラックボックス制約関数 $g(x)leq 0$ に最適化する。本稿では,楽観的かつ悲観的なGPバンディット学習を取り入れたペナルティベース手法であるRectified Pessimistic-Optimistic Learning framework (RPOL)を提案する。
論文参考訳（メタデータ） (2022-11-27T04:28:16Z)
On Instance-Dependent Bounds for Offline Reinforcement Learning with Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文参考訳（メタデータ） (2022-11-23T18:50:44Z)
Exploiting the Curvature of Feasible Sets for Faster Projection-Free Online Learning [8.461907111368628]
我々はオンライン凸最適化(OCO)のための新しい効率的なプロジェクションフリーアルゴリズムを開発した。我々は,LOOracleを1ラウンドに2回呼び出すOCOアルゴリズムを開発し,ほぼ最適の$widetildeO(sqrtT)を後悔する。また, 一般凸集合に対して, 1ラウンド当たりのO(d)$ LO Oracleへのコール数を$widetilde O(d)$に設定するアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-23T17:13:46Z)
Towards Painless Policy Optimization for Constrained MDPs [46.12526917024248]
我々は、無限の地平線における政策最適化、$gamma$-discounted constrained Markov decision process (CMDP)について研究する。我々の目標は、小さな制約違反で大きな期待された報酬を達成する政策を返却することである。本稿では,任意のアルゴリズムに対して,報酬の準最適性と制約違反を拘束できる汎用的原始双対フレームワークを提案する。
論文参考訳（メタデータ） (2022-04-11T15:08:09Z)
Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文参考訳（メタデータ） (2021-12-29T02:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。