論文の概要: Concave Utility Reinforcement Learning with Zero-Constraint Violations
- arxiv url: http://arxiv.org/abs/2109.05439v1
- Date: Sun, 12 Sep 2021 06:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 05:48:14.903831
- Title: Concave Utility Reinforcement Learning with Zero-Constraint Violations
- Title(参考訳): zero-constraint 違反によるconcaveユーティリティ強化学習
- Authors: Mridul Agarwal, Qinbo Bai, Vaneet Aggarwal
- Abstract要約: ロボット工学のような制約のある様々な学習アプリケーションは、制約に違反する可能性のあるポリシーを許可しない。
制約違反をゼロとするモデルに基づく学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 34.77250498401055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of tabular infinite horizon concave utility
reinforcement learning (CURL) with convex constraints. Various learning
applications with constraints, such as robotics, do not allow for policies that
can violate constraints. To this end, we propose a model-based learning
algorithm that achieves zero constraint violations. To obtain this result, we
assume that the concave objective and the convex constraints have a solution
interior to the set of feasible occupation measures. We then solve a tighter
optimization problem to ensure that the constraints are never violated despite
the imprecise model knowledge and model stochasticity. We also propose a novel
Bellman error based analysis for tabular infinite-horizon setups which allows
to analyse stochastic policies. Combining the Bellman error based analysis and
tighter optimization equation, for $T$ interactions with the environment, we
obtain a regret guarantee for objective which grows as $\Tilde{O}(1/\sqrt{T})$,
excluding other factors.
- Abstract(参考訳): 凸制約付きCURL(Tabular infinite horizon concave utility reinforcement Learning)の問題点を考察する。
ロボット工学のような制約のある様々な学習アプリケーションは、制約に違反するポリシーを許可しない。
そこで本研究では,制約違反ゼロを実現するモデルベース学習アルゴリズムを提案する。
この結果を得るために、凹面の目的と凸の制約が、実現可能な占領対策の集合の内部に解を持つと仮定する。
そして,不正確なモデル知識とモデル確率性にもかかわらず,制約が決して破られないように,より厳密な最適化問題を解く。
また,確率的ポリシーを解析可能な表状無限ホライゾン設定に対するベルマン誤差に基づく新しい解析法を提案する。
ベルマン誤差に基づく解析とより厳密な最適化方程式を組み合わせることで、環境との$T$相互作用に対して、他の要因を除いて$\Tilde{O}(1/\sqrt{T})$として成長する目的に対する後悔の保証が得られる。
関連論文リスト
- Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Beyond Primal-Dual Methods in Bandits with Stochastic and Adversarial Constraints [29.514323697659613]
我々は,学習者が任意の長期制約を満たすことなく報酬を最大化することを目的とした,knapsacks問題によるバンディットの一般化に対処する。
私たちのゴールは、双方の制約の下で機能するベスト・オブ・ザ・ワールドのアルゴリズムを設計することです。
論文 参考訳(メタデータ) (2024-05-25T08:09:36Z) - Multi-Agent Bayesian Optimization with Coupled Black-Box and Affine
Constraints [21.38692458445459]
ブラックボックス制約と既知のアフィン制約を結合した分散マルチエージェントベイズ最適化の問題について検討する。
単一エージェントの場合と同様の後悔/違反境界を実現するアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2023-10-02T08:07:36Z) - Projection-Free Online Convex Optimization with Stochastic Constraints [0.0]
我々は制約付きオンライン凸最適化のためのプロジェクションフリーアルゴリズムを開発した。
各種設定に対してサブ線形後悔と制約違反境界を推定する。
我々は、制約違反を減らして、後悔と同じ成長をすることができることを証明している。
論文 参考訳(メタデータ) (2023-05-02T11:27:34Z) - Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation
Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。
提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-19T14:48:54Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Fast Global Convergence of Policy Optimization for Constrained MDPs [17.825031573375725]
勾配法は最適性ギャップと制約違反の両方に対して$mathcalO(log(T)/T)$大域収束率が得られることを示す。
スレーターの条件が満たされ、事前条件が知られているとき、十分大きなT$に対してゼロ制約違反がさらに保証される。
論文 参考訳(メタデータ) (2021-10-31T17:46:26Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - A Feasible Level Proximal Point Method for Nonconvex Sparse Constrained
Optimization [25.73397307080647]
本稿では,汎用凸あるいは非汎用機械目標の新しいモデルを提案する。
本稿では,各サブプロブレムの点レベルを徐々に緩和した制約を解くアルゴリズムを提案する。
我々は,新しい数値スケール問題の有効性を実証する。
論文 参考訳(メタデータ) (2020-10-23T05:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。