論文の概要: The Impact of the Geometric Properties of the Constraint Set in Safe
Optimization with Bandit Feedback
- arxiv url: http://arxiv.org/abs/2305.00889v1
- Date: Mon, 1 May 2023 15:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 12:54:28.154910
- Title: The Impact of the Geometric Properties of the Constraint Set in Safe
Optimization with Bandit Feedback
- Title(参考訳): バンディットフィードバックによる安全最適化における制約集合の幾何学的性質の影響
- Authors: Spencer Hutchinson, Berkay Turan, Mahnoosh Alizadeh
- Abstract要約: 我々は,エージェントが逐次行動を選択し,環境からの反応を観察する,帯域幅フィードバックによる安全な最適化問題を考える。
この問題に対するアルゴリズムを提案し,制約セットの幾何学的性質がアルゴリズムの後悔にどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 5.758073912084366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a safe optimization problem with bandit feedback in which an
agent sequentially chooses actions and observes responses from the environment,
with the goal of maximizing an arbitrary function of the response while
respecting stage-wise constraints. We propose an algorithm for this problem,
and study how the geometric properties of the constraint set impact the regret
of the algorithm. In order to do so, we introduce the notion of the sharpness
of a particular constraint set, which characterizes the difficulty of
performing learning within the constraint set in an uncertain setting. This
concept of sharpness allows us to identify the class of constraint sets for
which the proposed algorithm is guaranteed to enjoy sublinear regret.
Simulation results for this algorithm support the sublinear regret bound and
provide empirical evidence that the sharpness of the constraint set impacts the
performance of the algorithm.
- Abstract(参考訳): 本稿では, エージェントが順次行動を選択し, 環境からの応答を観測し, 段階的制約を尊重しながら応答の任意の関数を最大化する, 帯域幅フィードバックによる安全な最適化問題を考察する。
この問題に対するアルゴリズムを提案し,制約セットの幾何学的性質がアルゴリズムの後悔にどのように影響するかを検討する。
そこで本研究では,不確実な環境での制約セット内での学習の難しさを特徴付ける,特定の制約セットのシャープネスの概念を導入する。
このシャープネスの概念により、提案アルゴリズムがサブ線形後悔を楽しむことが保証される制約セットのクラスを特定することができる。
このアルゴリズムのシミュレーション結果は、サブ線形後悔境界をサポートし、制約セットのシャープさがアルゴリズムの性能に影響を及ぼすという経験的証拠を提供する。
関連論文リスト
- A Universal Class of Sharpness-Aware Minimization Algorithms [57.29207151446387]
我々は、新しいシャープネス尺度を導入し、新しいシャープネス対応目標関数を導出する。
これらの測度がテキスト的に表現可能であることを証明し、トレーニング損失ヘッセン行列の任意の関数を適切なハイパーおよび行列式で表すことを可能にする。
論文 参考訳(メタデータ) (2024-06-06T01:52:09Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Directional Optimism for Safe Linear Bandits [4.84955052297084]
安全線形バンドイット問題は、学習者の行動が全てのラウンドにおいて不確実な制約を満たす必要がある古典線形バンドイット問題のバージョンである。
我々は、よく分離された問題インスタンスと有限の星凸集合であるアクションセットの両方に対して、改善された後悔の保証を達成することができることを発見した。
最後に、制約が凸である安全な線形帯域設定の一般化を導入し、新しい凸解析に基づくアプローチを用いてアルゴリズムと解析をこの設定に適応させる。
論文 参考訳(メタデータ) (2023-08-29T03:54:53Z) - Primal-Dual Contextual Bayesian Optimization for Control System Online
Optimization with Time-Average Constraints [21.38692458445459]
本稿では,制約付き閉ループ制御システムのオンライン性能最適化問題について検討する。
動的最適解に対する線形累積後悔を克服する主元-双対文脈ベイズ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-12T18:37:52Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Concave Utility Reinforcement Learning with Zero-Constraint Violations [43.29210413964558]
本稿では,凸制約を伴うCURL(Concave utility reinforcement Learning)の問題点について考察する。
制約違反をゼロにするモデルベース学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:13:33Z) - Screening Rules and its Complexity for Active Set Identification [16.762870396299334]
スクリーニングルールは、部分微分集合の自然特性と最適条件の組み合わせに由来することを示す。
軽微な仮定の下で、収束アルゴリズムの最適能動集合を特定するのに必要な反復数を分析する。
論文 参考訳(メタデータ) (2020-09-06T11:10:34Z) - Constrained episodic reinforcement learning in concave-convex and
knapsack settings [81.08055425644037]
コンケーブ報酬と凸制約のある設定に対して、強力な理論的保証を持つモジュラー解析を提供する。
実験により,提案アルゴリズムは既存の制約付きエピソード環境において,これらの手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-06-09T05:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。