論文の概要: Rectified Pessimistic-Optimistic Learning for Stochastic Continuum-armed
Bandit with Constraints
- arxiv url: http://arxiv.org/abs/2211.14720v2
- Date: Tue, 29 Nov 2022 04:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 12:23:32.567457
- Title: Rectified Pessimistic-Optimistic Learning for Stochastic Continuum-armed
Bandit with Constraints
- Title(参考訳): 制約付き確率連続体型バンディットの正則悲観的最適学習
- Authors: Hengquan Guo, Qi Zhu, and Xin Liu
- Abstract要約: ブラックボックスの報酬関数 $f(x)$ を、連続空間上のブラックボックス制約関数 $g(x)leq 0$ に最適化する。
本稿では,楽観的かつ悲観的なGPバンディット学習を取り入れたペナルティベース手法であるRectified Pessimistic-Optimistic Learning framework (RPOL)を提案する。
- 参考スコア(独自算出の注目度): 4.879346089164413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the problem of stochastic continuum-armed bandit with
constraints (SCBwC), where we optimize a black-box reward function $f(x)$
subject to a black-box constraint function $g(x)\leq 0$ over a continuous space
$\mathcal X$. We model reward and constraint functions via Gaussian processes
(GPs) and propose a Rectified Pessimistic-Optimistic Learning framework (RPOL),
a penalty-based method incorporating optimistic and pessimistic GP bandit
learning for reward and constraint functions, respectively. We consider the
metric of cumulative constraint violation $\sum_{t=1}^T(g(x_t))^{+},$ which is
strictly stronger than the traditional long-term constraint violation
$\sum_{t=1}^Tg(x_t).$ The rectified design for the penalty update and the
pessimistic learning for the constraint function in RPOL guarantee the
cumulative constraint violation is minimal. RPOL can achieve sublinear regret
and cumulative constraint violation for SCBwC and its variants (e.g., under
delayed feedback and non-stationary environment). These theoretical results
match their unconstrained counterparts. Our experiments justify RPOL
outperforms several existing baseline algorithms.
- Abstract(参考訳): 本稿では,制約付き確率連続体型バンディット問題(scbwc)について検討し,ブラックボックスの報酬関数 $f(x)$ を,連続空間 $\mathcal x$ 上のブラックボックス制約関数 $g(x)\leq 0$ に対して最適化する。
我々はガウス過程(GP)を介して報酬関数と制約関数をモデル化し、それぞれ報酬関数と制約関数に楽観的および悲観的なGPバンディット学習を取り入れたペナルティベースのフレームワークRPOL(Rectified Pessimistic-Optimistic Learning framework)を提案する。
累積制約違反の計量である$\sum_{t=1}^t(g(x_t))^{+},$は従来の長期制約違反である$\sum_{t=1}^tg(x_t)よりも厳密に強い。
$ ペナルティ更新の修正設計とRPOLの制約関数の悲観的な学習により、累積的制約違反は最小限である。
RPOLは、SCBwCとその変種(例えば遅延フィードバックや非定常環境下で)に対するサブ線形後悔と累積的制約違反を達成できる。
これらの理論結果は制約のない結果と一致する。
我々の実験は、RPOLが既存のベースラインアルゴリズムより優れていることを正当化する。
関連論文リスト
- Online Convex Optimization with Stochastic Constraints: Zero Constraint
Violation and Bandit Feedback [0.0]
本稿では,O(sqrtT)$期待後悔とゼロ制約違反を保証できるドリフト・プラス・ペナルティアルゴリズムの変種を提案する。
我々のアルゴリズムは、バニラドリフト・プラス・ペナルティ法とは対照的に、時間地平線の長さが$T$である。
論文 参考訳(メタデータ) (2023-01-26T18:04:26Z) - Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation
Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。
提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-19T14:48:54Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Towards Painless Policy Optimization for Constrained MDPs [46.12526917024248]
我々は、無限の地平線における政策最適化、$gamma$-discounted constrained Markov decision process (CMDP)について研究する。
我々の目標は、小さな制約違反で大きな期待された報酬を達成する政策を返却することである。
本稿では,任意のアルゴリズムに対して,報酬の準最適性と制約違反を拘束できる汎用的原始双対フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-11T15:08:09Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Achieving Zero Constraint Violation for Constrained Reinforcement
Learning via Primal-Dual Approach [37.80609997145897]
強化学習は、環境と対話しながらシーケンシャルな決定を行う必要があるアプリケーションで広く使われている。
決定要件がいくつかの安全制約を満たすことを含むと、問題はより難しくなります。
CMDP問題をモデルのない方法で解き、$epsilon$-optimal cumulative rewardを$epsilon$-factible Policyで達成することができる。
ここでの重要な疑問は、制約違反ゼロで$epsilon$-optimal cumulative rewardを達成できるかどうかである。
論文 参考訳(メタデータ) (2021-09-13T21:27:03Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Regret and Cumulative Constraint Violation Analysis for Online Convex
Optimization with Long Term Constraints [24.97580261894342]
本稿では,長期的制約を伴うオンライン凸最適化について考察する。
新たなアルゴリズムが最初に提案され、静的後悔のために$mathcalO(Tmaxc,1-c)$bound、累積制約違反のために$mathcalO(T(1-c)/2)$boundを達成する。
論文 参考訳(メタデータ) (2021-06-09T15:18:06Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Online DR-Submodular Maximization with Stochastic Cumulative Constraints [17.660958043781154]
線形長期制約を伴うオンライン連続DR-サブモジュラーを考える。
オンラインラグランジアンFrank-Wolfe (OLFW) アルゴリズムは、この種のオンライン問題を解く。
論文 参考訳(メタデータ) (2020-05-29T17:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。