論文の概要: Strategies for Safe Multi-Armed Bandits with Logarithmic Regret and Risk
- arxiv url: http://arxiv.org/abs/2204.00706v1
- Date: Fri, 1 Apr 2022 22:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 13:32:40.453422
- Title: Strategies for Safe Multi-Armed Bandits with Logarithmic Regret and Risk
- Title(参考訳): 対数レグレットとリスクを有する安全マルチアーマードバンドの戦略
- Authors: Tianrui Chen, Aditya Gangrade, Venkatesh Saligrama
- Abstract要約: 本研究は,安全リスク制約下でのマルチアームバンディット問題に対する,自然だが意外な未研究のアプローチについて検討する。
我々は、いかなる違反に対してもソフトに罰則を課すことにより、この安全制約を丸ごと強制する、この設定に対する擬似回帰を定式化する。
これは、総合的な意味でではなく、各ラウンドの安全を維持する必要がある臨床試験のようなシナリオに実践的に関係している。
- 参考スコア(独自算出の注目度): 45.87122314291089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate a natural but surprisingly unstudied approach to the
multi-armed bandit problem under safety risk constraints. Each arm is
associated with an unknown law on safety risks and rewards, and the learner's
goal is to maximise reward whilst not playing unsafe arms, as determined by a
given threshold on the mean risk.
We formulate a pseudo-regret for this setting that enforces this safety
constraint in a per-round way by softly penalising any violation, regardless of
the gain in reward due to the same. This has practical relevance to scenarios
such as clinical trials, where one must maintain safety for each round rather
than in an aggregated sense.
We describe doubly optimistic strategies for this scenario, which maintain
optimistic indices for both safety risk and reward. We show that schema based
on both frequentist and Bayesian indices satisfy tight gap-dependent
logarithmic regret bounds, and further that these play unsafe arms only
logarithmically many times in total. This theoretical analysis is complemented
by simulation studies demonstrating the effectiveness of the proposed schema,
and probing the domains in which their use is appropriate.
- Abstract(参考訳): 本研究は,安全リスク制約下でのマルチアームバンディット問題に対する自然かつ意外なアプローチについて検討する。
各アームは、安全リスクと報酬に関する未知の法則と関連付けられており、学習者の目標は、平均リスクに関する所定のしきい値によって決定される、安全でない腕をプレイしながら報酬を最大化することである。
我々は、この設定に対する疑似レグレットを定式化し、それによる報酬のゲインに関係なく、いかなる違反もソフトペナライズすることで、この安全制約をラウンドごとに強制する。
これは、総合的な意味でではなく、各ラウンドの安全を維持する必要がある臨床試験のようなシナリオに実践的に関係している。
安全リスクと報酬の両面で楽観的な指標を維持するこのシナリオの2つの楽観的な戦略について述べる。
頻繁な指標とベイズ指標の両方に基づくスキーマは、ギャップ依存の対数的後悔境界を満足し、さらに、これらが対数的にのみ安全でない腕を奏することを示す。
この理論解析は,提案したスキーマの有効性を示すシミュレーション研究と,それを用いたドメインの探索によって補完される。
関連論文リスト
- Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits [0.0]
医療や金融のような高ボラティリティの分野では、素直な報酬アプローチは学習問題の複雑さを正確に捉えないことが多い。
非定常環境で動作する適応型リスク認識戦略の枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-24T19:29:13Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - SAAC: Safe Reinforcement Learning as an Adversarial Game of
Actor-Critics [11.132587007566329]
そこで我々は,SAACと呼ばれるソフトアクター批判フレームワークを開発した。
SAACでは、RLエージェントが制約値関数の最大化を目標として、安全制約を破ることを目的としている。
安全性の制約を満たすために,SAACはより早く収束し,効率が良く,障害が少なくなることを示す。
論文 参考訳(メタデータ) (2022-04-20T12:32:33Z) - Best Arm Identification with Safety Constraints [3.7783523378336112]
マルチアームバンディット設定における最高の腕識別問題は、多くの実世界の意思決定問題の優れたモデルである。
安全クリティカルな環境でのベストアーム識別の課題について検討し、エージェントのゴールは、最も安全な選択肢を見つけることである。
本手法では,安全な学習が保証されるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-23T20:53:12Z) - Learning to Act Safely with Limited Exposure and Almost Sure Certainty [1.0323063834827415]
本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-05-18T18:05:12Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Learning under Invariable Bayesian Safety [36.96284975799963]
私たちは最近、レコメンデーションのために、バンディットのような設定に関する研究に触発されたモデルを採用しています。
各ラウンドで尊重すべき安全制約を導入し、各ラウンドの期待値が所定の閾値を超えることを判断する。
論文 参考訳(メタデータ) (2020-06-08T12:07:59Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。