論文の概要: A Doubly Optimistic Strategy for Safe Linear Bandits
- arxiv url: http://arxiv.org/abs/2209.13694v1
- Date: Tue, 27 Sep 2022 21:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:10:42.756059
- Title: A Doubly Optimistic Strategy for Safe Linear Bandits
- Title(参考訳): 安全リニアバンドのための二重最適戦略
- Authors: Tianrui Chen, Aditya Gangrade, Venkatesh Saligrama
- Abstract要約: DOSLBは、報酬と安全スコアの楽観的な推定を用いて、最高の楽観性を行使し、行動を選択する。
DOSLBが危険な行動を取ることは滅多になく、不効率と行動の安全性の欠如の両方を後悔の念として、$tildeO(d sqrtT)$ regretを得る。
- 参考スコア(独自算出の注目度): 45.87122314291089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a \underline{d}oubly \underline{o}ptimistic strategy for the
\underline{s}afe-\underline{l}inear-\underline{b}andit problem, DOSLB. The safe
linear bandit problem is to optimise an unknown linear reward whilst satisfying
unknown round-wise safety constraints on actions, using stochastic bandit
feedback of reward and safety-risks of actions. In contrast to prior work on
aggregated resource constraints, our formulation explicitly demands control on
roundwise safety risks.
Unlike existing optimistic-pessimistic paradigms for safe bandits, DOSLB
exercises supreme optimism, using optimistic estimates of reward and safety
scores to select actions. Yet, and surprisingly, we show that DOSLB rarely
takes risky actions, and obtains $\tilde{O}(d \sqrt{T})$ regret, where our
notion of regret accounts for both inefficiency and lack of safety of actions.
Specialising to polytopal domains, we first notably show that the
$\sqrt{T}$-regret bound cannot be improved even with large gaps, and then
identify a slackened notion of regret for which we show tight
instance-dependent $O(\log^2 T)$ bounds. We further argue that in such domains,
the number of times an overly risky action is played is also bounded as
$O(\log^2T)$.
- Abstract(参考訳): 我々は,\underline{d}oubly \underline{o}ptimistic strategy for the \underline{s}afe-\underline{l}inear-\underline{b}andit problem, doslbを提案する。
安全線形バンディット問題は、報酬と安全リスクの確率的ランディットフィードバックを用いて、未知のラウンドワイド安全制約を満たすとともに、未知の線形報酬を最適化することである。
集約された資源制約に関する以前の作業とは対照的に、我々の定式化は周方向の安全リスクの制御を明示的に要求する。
安全な盗賊のための既存の楽観的悲観的パラダイムとは異なり、DOSLBは最高の楽観主義を行使し、報酬と安全スコアの楽観的な推定を用いて行動を選択する。
しかし、驚くべきことに、doslbがリスクの高いアクションを取ることは滅多になく、$\tilde{o}(d \sqrt{t})$ regretが得られる。
ポリトープ領域に特化して、まず、$\sqrt{T}$-regret 境界は大きなギャップがあっても改善できないことを示す。
さらに、そのような領域では、過度に危険なアクションがプレイされる回数も$O(\log^2T)$として有界であると主張する。
関連論文リスト
- Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints [8.784438985280094]
線形制約が未知の多腕バンディットにおける純粋探索として問題を研究する。
まず、制約下での純粋な探索のために、サンプルの複雑さを低く抑えたラグランジアン緩和を提案する。
第二に、ラグランジアンの下界と凸の性質を利用して、トラック・アンド・ストップとガミファイド・エクスプローラー(LATSとLAGEX)の2つの計算効率の良い拡張を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:26:14Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Safe Reinforcement Learning with Linear Function Approximation [48.75026009895308]
我々は、状態と行動の未知の線形コスト関数として安全を導入し、それは常に一定の閾値以下でなければならない。
次に,線形関数近似を用いたマルコフ決定過程(MDP)について,SLUCB-QVIおよびRSLUCB-QVIと呼ぶアルゴリズムを提案する。
SLUCB-QVI と RSLUCB-QVI は、Emphno safety violation で $tildemathcalOleft(kappasqrtd3H3Tright)$ regret, almost matching を達成した。
論文 参考訳(メタデータ) (2021-06-11T08:46:57Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。