論文の概要: Penalised FTRL With Time-Varying Constraints
- arxiv url: http://arxiv.org/abs/2204.02197v2
- Date: Wed, 6 Apr 2022 07:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 11:23:52.871959
- Title: Penalised FTRL With Time-Varying Constraints
- Title(参考訳): 時間変化制約によるFTRLの罰則
- Authors: Douglas J. Leith, George Iosifidis
- Abstract要約: 我々は,提案したPentalized FTRLアルゴリズムに対して,後悔と違反を伴って$O(sqrtt)を達成できる十分な条件を確立する。
我々の十分な条件は、それらが違反した場合に、$O(sqrtt)$ regret and violationが達成されない例が存在するという意味で必要である。
- 参考スコア(独自算出の注目度): 30.841784023925783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we extend the classical Follow-The-Regularized-Leader (FTRL)
algorithm to encompass time-varying constraints, through adaptive penalization.
We establish sufficient conditions for the proposed Penalized FTRL algorithm to
achieve $O(\sqrt{t})$ regret and violation with respect to strong benchmark
$\hat{X}^{max}_t$. Lacking prior knowledge of the constraints, this is probably
the largest benchmark set that we can reasonably hope for. Our sufficient
conditions are necessary in the sense that when they are violated there exist
examples where $O(\sqrt{t})$ regret and violation is not achieved. Compared to
the best existing primal-dual algorithms, Penalized FTRL substantially extends
the class of problems for which $O(\sqrt{t})$ regret and violation performance
is achievable.
- Abstract(参考訳): 本稿では,古典的なFTRLアルゴリズムを拡張し,適応的なペナライゼーションによって時間的制約を包含する。
我々は,提案したPentalized FTRLアルゴリズムに対して,強いベンチマークである$\hat{X}^{max}_t$に対して,$O(\sqrt{t})$後悔と違反を達成するための十分な条件を確立する。
制約に関する事前の知識が欠如しているため、これはおそらく私たちが期待できる最大のベンチマークセットです。
我々の十分な条件は、それらが違反した場合、$O(\sqrt{t})$ regret and violationが達成されないような例が存在するという意味で必要である。
最上級の原始双対アルゴリズムと比較すると、Penalized FTRLは、$O(\sqrt{t})$ regret and violation performance が達成可能な問題のクラスを大幅に拡張する。
関連論文リスト
- Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - Projection-Free Online Convex Optimization with Time-Varying Constraints [19.993839085310643]
逆時間制約によるオンライン凸最適化の設定について検討する。
固定可能な集合を投影することが難しいシナリオによって動機付けられ、線形最適化オラクル(LOO)を通してのみこの集合にアクセスするプロジェクションフリーアルゴリズムを考える。
我々は、長さ$T$のシーケンスで、全体$T$をLOOに呼び出し、$tildeO(T3/4)$ regret w.r.t.の損失と$O(T7/8)$制約違反を保証します。
論文 参考訳(メタデータ) (2024-02-13T21:13:29Z) - Efficient Frameworks for Generalized Low-Rank Matrix Bandit Problems [61.85150061213987]
一般化線形モデル (GLM) フレームワークを用いて, citelu2021low で提案した一般化低ランク行列帯域問題について検討する。
既存のアルゴリズムの計算不可能性と理論的制約を克服するため,まずG-ESTTフレームワークを提案する。
G-ESTT は $tildeO(sqrt(d_1+d_2)3/2Mr3/2T)$ bound of regret を達成でき、G-ESTS は $tildeO を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-14T14:14:19Z) - Multi-point Feedback of Bandit Convex Optimization with Hard Constraints [1.8130068086063336]
本研究では,学習者が損失関数の部分的情報に基づいて決定列を生成することを目的とした制約付き帯域凸最適化について検討する。
我々は、累積的テクスト制約違反を制約違反の指標として採用する。
我々のアルゴリズムは、凸損失関数と時間変化制約に対して、$O(d2Tmaxc,1-c)$ regret bounds と $O(d2T1-fracc2)$ cumulative hard constraint violation bounds を得る。
論文 参考訳(メタデータ) (2023-10-17T02:43:22Z) - Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。
本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T14:37:21Z) - Safe Posterior Sampling for Constrained MDPs with Bounded Constraint
Violation [8.849815837266977]
制約付きマルコフ決定プロセス(CMDP)は、多くのアプリケーションにおいてますます重要になっている複数の目的を持つシーケンシャルな意思決定のシナリオをモデル化する。
我々は,そのような仮定を必要とせず,しかも非常によく機能するSafe PSRL (posterior sample-based RL)アルゴリズムを提案する。
準線形$tildemathcal Oleft(H2.5 sqrt|mathcalS|2 |mathcalA|K right)$上界をベイズ賞の目的的後悔と、有界なイデアルとともに成立させる。
論文 参考訳(メタデータ) (2023-01-27T06:18:25Z) - Online Convex Optimization with Stochastic Constraints: Zero Constraint
Violation and Bandit Feedback [0.0]
本稿では,O(sqrtT)$期待後悔とゼロ制約違反を保証できるドリフト・プラス・ペナルティアルゴリズムの変種を提案する。
我々のアルゴリズムは、バニラドリフト・プラス・ペナルティ法とは対照的に、時間地平線の長さが$T$である。
論文 参考訳(メタデータ) (2023-01-26T18:04:26Z) - Regret and Cumulative Constraint Violation Analysis for Online Convex
Optimization with Long Term Constraints [24.97580261894342]
本稿では,長期的制約を伴うオンライン凸最適化について考察する。
新たなアルゴリズムが最初に提案され、静的後悔のために$mathcalO(Tmaxc,1-c)$bound、累積制約違反のために$mathcalO(T(1-c)/2)$boundを達成する。
論文 参考訳(メタデータ) (2021-06-09T15:18:06Z) - Efficient Optimistic Exploration in Linear-Quadratic Regulators via
Lagrangian Relaxation [107.06364966905821]
線形2次レギュレータ(LQR)設定における探索・探索ジレンマについて検討した。
有限 MDP に対する楽観的アルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て,Oulq の楽観的最適化を緩和することを提案する。
我々は、少なくとも$Obig(log (1/epsilon)big)$ Riccati方程式を解くことで、$epsilon$-OptimisticControllerを効率的に計算できることを示した。
論文 参考訳(メタデータ) (2020-07-13T16:30:47Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。