論文の概要: Safety Aware Changepoint Detection for Piecewise i.i.d. Bandits
- arxiv url: http://arxiv.org/abs/2205.13689v1
- Date: Fri, 27 May 2022 00:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 08:51:09.802660
- Title: Safety Aware Changepoint Detection for Piecewise i.i.d. Bandits
- Title(参考訳): ピアスワイドI.d.帯域における安全注意点検出
- Authors: Subhojyoti Mukherjee
- Abstract要約: 我々は安全上の制約の下で、一括して盗賊の配置を考える。
この設定では、いくつかのまたはすべての腕の平均が同時に変化する有限個の変化点が存在する。
安全制約を満たす2つの能動的適応アルゴリズムを提案し, 変更点数や位置を知ることなく, 変更点の検出, 再起動を行う。
- 参考スコア(独自算出の注目度): 2.0407204637672884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider the setting of piecewise i.i.d. bandits under a
safety constraint. In this piecewise i.i.d. setting, there exists a finite
number of changepoints where the mean of some or all arms change
simultaneously. We introduce the safety constraint studied in
\citet{wu2016conservative} to this setting such that at any round the
cumulative reward is above a constant factor of the default action reward. We
propose two actively adaptive algorithms for this setting that satisfy the
safety constraint, detect changepoints, and restart without the knowledge of
the number of changepoints or their locations. We provide regret bounds for our
algorithms and show that the bounds are comparable to their counterparts from
the safe bandit and piecewise i.i.d. bandit literature. We also provide the
first matching lower bounds for this setting. Empirically, we show that our
safety-aware algorithms perform similarly to the state-of-the-art actively
adaptive algorithms that do not satisfy the safety constraint.
- Abstract(参考訳): 本稿では,安全制約下での盗賊の断片的設定について考察する。
この部分的設定では、いくつかのまたはすべての腕の平均が同時に変化する有限個の変化点が存在する。
ここでは,任意のラウンドにおいて累積報酬がデフォルトのアクション報酬の定数値を超えるような安全制約をこの設定に導入する。
そこで本研究では,安全制約を満たし,変更点を検知し,変更点数や位置を知らずに再開する2つの適応アルゴリズムを提案する。
我々は、我々のアルゴリズムに後悔の限界を与え、その境界がsafe banditとslitwise i.i.d. bandit literatureのそれと同等であることを示す。
また、この設定に対する最初のマッチングローワーバウンダリも提供します。
実証的に,安全対応アルゴリズムは,安全制約を満たさない最先端の適応型アルゴリズムと同様に機能することを示した。
関連論文リスト
- Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。
われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。
我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文 参考訳(メタデータ) (2024-04-09T04:45:18Z) - Robust Safe Reinforcement Learning under Adversarial Disturbances [12.145611442959602]
現実世界の制御タスクに強化学習を適用する場合、安全が主な関心事である。
既存の安全な強化学習アルゴリズムは、外部の障害をほとんど考慮しない。
本稿では,最悪のケース障害に対処する堅牢な安全強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T05:34:46Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Complete Policy Regret Bounds for Tallying Bandits [51.039677652803675]
政策後悔は、適応的な敵に対してオンライン学習アルゴリズムのパフォーマンスを測定するという、よく確立された概念である。
我々は,不完全な政策後悔を効果的に最小化できる敵の制限について検討する。
我々は、$tildemathcalO(mKsqrtT)$の完全なポリシーを後悔するアルゴリズムを提供し、$tildemathcalO$表記は対数要素だけを隠す。
論文 参考訳(メタデータ) (2022-04-24T03:10:27Z) - Strategies for Safe Multi-Armed Bandits with Logarithmic Regret and Risk [45.87122314291089]
本研究は,安全リスク制約下でのマルチアームバンディット問題に対する,自然だが意外な未研究のアプローチについて検討する。
我々は、いかなる違反に対してもソフトに罰則を課すことにより、この安全制約を丸ごと強制する、この設定に対する擬似回帰を定式化する。
これは、総合的な意味でではなく、各ラウンドの安全を維持する必要がある臨床試験のようなシナリオに実践的に関係している。
論文 参考訳(メタデータ) (2022-04-01T22:08:03Z) - Safe Linear Leveling Bandits [9.023847175654602]
マルチアーム・バンディット(MAB)は、行動結果のテキスト化が目的である様々な環境で研究される。
多くの現実世界の問題において安全は不可欠であるため、安全版のMABもかなりの関心を集めている。
そこでは,2面の安全制約を尊重しながら,行動の結果を目標レベルに近づけることを目的としている。
論文 参考訳(メタデータ) (2021-12-13T15:29:32Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Stage-wise Conservative Linear Bandits [37.717532659194426]
オンライン広告や医療実験などのアプリケーションに現れる(未知の)安全制約を考慮に入れた帯域最適化について検討する。
ベースライン制約を尊重し、順序 O(sqrtT log T) の確率的後悔境界を楽しむ2つの新しいアルゴリズムを提案する。
特に、提案アルゴリズムは、様々な問題に対処するために、小さな修正だけで調整できる。
論文 参考訳(メタデータ) (2020-09-30T19:51:37Z) - Regret Bounds for Safe Gaussian Process Bandit Optimization [42.336882999112845]
安全クリティカルなシステムでは、学習者の行動が学習プロセスのどの段階においても安全上の制約に違反しないことが最重要である。
我々は,SGP-UCBと呼ばれるGP-UCBの安全版を開発し,各ラウンドの安全制約を尊重するために必要な修正を行った。
論文 参考訳(メタデータ) (2020-05-05T03:54:43Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。