論文の概要: The Impact of the Geometric Properties of the Constraint Set in Safe
Optimization with Bandit Feedback
- arxiv url: http://arxiv.org/abs/2305.00889v1
- Date: Mon, 1 May 2023 15:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 12:54:28.154910
- Title: The Impact of the Geometric Properties of the Constraint Set in Safe
Optimization with Bandit Feedback
- Title(参考訳): バンディットフィードバックによる安全最適化における制約集合の幾何学的性質の影響
- Authors: Spencer Hutchinson, Berkay Turan, Mahnoosh Alizadeh
- Abstract要約: 我々は,エージェントが逐次行動を選択し,環境からの反応を観察する,帯域幅フィードバックによる安全な最適化問題を考える。
この問題に対するアルゴリズムを提案し,制約セットの幾何学的性質がアルゴリズムの後悔にどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 5.758073912084366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a safe optimization problem with bandit feedback in which an
agent sequentially chooses actions and observes responses from the environment,
with the goal of maximizing an arbitrary function of the response while
respecting stage-wise constraints. We propose an algorithm for this problem,
and study how the geometric properties of the constraint set impact the regret
of the algorithm. In order to do so, we introduce the notion of the sharpness
of a particular constraint set, which characterizes the difficulty of
performing learning within the constraint set in an uncertain setting. This
concept of sharpness allows us to identify the class of constraint sets for
which the proposed algorithm is guaranteed to enjoy sublinear regret.
Simulation results for this algorithm support the sublinear regret bound and
provide empirical evidence that the sharpness of the constraint set impacts the
performance of the algorithm.
- Abstract(参考訳): 本稿では, エージェントが順次行動を選択し, 環境からの応答を観測し, 段階的制約を尊重しながら応答の任意の関数を最大化する, 帯域幅フィードバックによる安全な最適化問題を考察する。
この問題に対するアルゴリズムを提案し,制約セットの幾何学的性質がアルゴリズムの後悔にどのように影響するかを検討する。
そこで本研究では,不確実な環境での制約セット内での学習の難しさを特徴付ける,特定の制約セットのシャープネスの概念を導入する。
このシャープネスの概念により、提案アルゴリズムがサブ線形後悔を楽しむことが保証される制約セットのクラスを特定することができる。
このアルゴリズムのシミュレーション結果は、サブ線形後悔境界をサポートし、制約セットのシャープさがアルゴリズムの性能に影響を及ぼすという経験的証拠を提供する。
関連論文リスト
- Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Directional Optimism for Safe Linear Bandits [4.84955052297084]
安全線形バンドイット問題は、学習者の行動が全てのラウンドにおいて不確実な制約を満たす必要がある古典線形バンドイット問題のバージョンである。
我々は、よく分離された問題インスタンスと有限の星凸集合であるアクションセットの両方に対して、改善された後悔の保証を達成することができることを発見した。
最後に、制約が凸である安全な線形帯域設定の一般化を導入し、新しい凸解析に基づくアプローチを用いてアルゴリズムと解析をこの設定に適応させる。
論文 参考訳(メタデータ) (2023-08-29T03:54:53Z) - Primal-Dual Contextual Bayesian Optimization for Control System Online
Optimization with Time-Average Constraints [21.38692458445459]
本稿では,制約付き閉ループ制御システムのオンライン性能最適化問題について検討する。
動的最適解に対する線形累積後悔を克服する主元-双対文脈ベイズ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-12T18:37:52Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Concave Utility Reinforcement Learning with Zero-Constraint Violations [43.29210413964558]
本稿では,凸制約を伴うCURL(Concave utility reinforcement Learning)の問題点について考察する。
制約違反をゼロにするモデルベース学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:13:33Z) - Screening Rules and its Complexity for Active Set Identification [16.762870396299334]
スクリーニングルールは、部分微分集合の自然特性と最適条件の組み合わせに由来することを示す。
軽微な仮定の下で、収束アルゴリズムの最適能動集合を特定するのに必要な反復数を分析する。
論文 参考訳(メタデータ) (2020-09-06T11:10:34Z) - Constrained episodic reinforcement learning in concave-convex and
knapsack settings [81.08055425644037]
コンケーブ報酬と凸制約のある設定に対して、強力な理論的保証を持つモジュラー解析を提供する。
実験により,提案アルゴリズムは既存の制約付きエピソード環境において,これらの手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-06-09T05:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。