論文の概要: A Doubly Optimistic Strategy for Safe Linear Bandits
- arxiv url: http://arxiv.org/abs/2209.13694v1
- Date: Tue, 27 Sep 2022 21:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:10:42.756059
- Title: A Doubly Optimistic Strategy for Safe Linear Bandits
- Title(参考訳): 安全リニアバンドのための二重最適戦略
- Authors: Tianrui Chen, Aditya Gangrade, Venkatesh Saligrama
- Abstract要約: DOSLBは、報酬と安全スコアの楽観的な推定を用いて、最高の楽観性を行使し、行動を選択する。
DOSLBが危険な行動を取ることは滅多になく、不効率と行動の安全性の欠如の両方を後悔の念として、$tildeO(d sqrtT)$ regretを得る。
- 参考スコア(独自算出の注目度): 45.87122314291089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a \underline{d}oubly \underline{o}ptimistic strategy for the
\underline{s}afe-\underline{l}inear-\underline{b}andit problem, DOSLB. The safe
linear bandit problem is to optimise an unknown linear reward whilst satisfying
unknown round-wise safety constraints on actions, using stochastic bandit
feedback of reward and safety-risks of actions. In contrast to prior work on
aggregated resource constraints, our formulation explicitly demands control on
roundwise safety risks.
Unlike existing optimistic-pessimistic paradigms for safe bandits, DOSLB
exercises supreme optimism, using optimistic estimates of reward and safety
scores to select actions. Yet, and surprisingly, we show that DOSLB rarely
takes risky actions, and obtains $\tilde{O}(d \sqrt{T})$ regret, where our
notion of regret accounts for both inefficiency and lack of safety of actions.
Specialising to polytopal domains, we first notably show that the
$\sqrt{T}$-regret bound cannot be improved even with large gaps, and then
identify a slackened notion of regret for which we show tight
instance-dependent $O(\log^2 T)$ bounds. We further argue that in such domains,
the number of times an overly risky action is played is also bounded as
$O(\log^2T)$.
- Abstract(参考訳): 我々は,\underline{d}oubly \underline{o}ptimistic strategy for the \underline{s}afe-\underline{l}inear-\underline{b}andit problem, doslbを提案する。
安全線形バンディット問題は、報酬と安全リスクの確率的ランディットフィードバックを用いて、未知のラウンドワイド安全制約を満たすとともに、未知の線形報酬を最適化することである。
集約された資源制約に関する以前の作業とは対照的に、我々の定式化は周方向の安全リスクの制御を明示的に要求する。
安全な盗賊のための既存の楽観的悲観的パラダイムとは異なり、DOSLBは最高の楽観主義を行使し、報酬と安全スコアの楽観的な推定を用いて行動を選択する。
しかし、驚くべきことに、doslbがリスクの高いアクションを取ることは滅多になく、$\tilde{o}(d \sqrt{t})$ regretが得られる。
ポリトープ領域に特化して、まず、$\sqrt{T}$-regret 境界は大きなギャップがあっても改善できないことを示す。
さらに、そのような領域では、過度に危険なアクションがプレイされる回数も$O(\log^2T)$として有界であると主張する。
関連論文リスト
- Regret Distribution in Stochastic Bandits: Optimal Trade-off between
Expectation and Tail Risk [22.843623578307707]
我々は,多武装バンディット問題における後悔分布の予測とテールリスクのトレードオフについて検討した。
予測された後悔の順序が、最悪のケースとインスタンスに依存したシナリオの両方において、後悔の尾確率の減衰率にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-04-10T01:00:18Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - A Simple and Optimal Policy Design for Online Learning with Safety
against Heavy-tailed Risk [22.843623578307707]
我々は,古典的多武装バンディット問題における重大リスクに対する安全性を確保する政策を設計する。
この重いリスクは、すべての「インスタンス依存の一貫性」ポリシーに存在します。
予想される後悔と軽微なリスクに対する最悪のケースの最適性は相容れないことを示す。
論文 参考訳(メタデータ) (2022-06-07T02:10:30Z) - Complete Policy Regret Bounds for Tallying Bandits [51.039677652803675]
政策後悔は、適応的な敵に対してオンライン学習アルゴリズムのパフォーマンスを測定するという、よく確立された概念である。
我々は,不完全な政策後悔を効果的に最小化できる敵の制限について検討する。
我々は、$tildemathcalO(mKsqrtT)$の完全なポリシーを後悔するアルゴリズムを提供し、$tildemathcalO$表記は対数要素だけを隠す。
論文 参考訳(メタデータ) (2022-04-24T03:10:27Z) - Strategies for Safe Multi-Armed Bandits with Logarithmic Regret and Risk [45.87122314291089]
本研究は,安全リスク制約下でのマルチアームバンディット問題に対する,自然だが意外な未研究のアプローチについて検討する。
我々は、いかなる違反に対してもソフトに罰則を課すことにより、この安全制約を丸ごと強制する、この設定に対する擬似回帰を定式化する。
これは、総合的な意味でではなく、各ラウンドの安全を維持する必要がある臨床試験のようなシナリオに実践的に関係している。
論文 参考訳(メタデータ) (2022-04-01T22:08:03Z) - Stochastic Linear Bandits Robust to Adversarial Attacks [117.665995707568]
我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。
いずれの変種も、倒壊しない場合には、それぞれ$C = 0$ となり、それぞれ追加の加法項が生じる。
文脈的設定では、単純な欲求的アルゴリズムは、明示的な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。
論文 参考訳(メタデータ) (2020-07-07T09:00:57Z) - Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。
確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。
RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文 参考訳(メタデータ) (2020-06-22T19:28:26Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。