論文の概要: A Convex Relaxation Approach to Bayesian Regret Minimization in Offline
Bandits
- arxiv url: http://arxiv.org/abs/2306.01237v1
- Date: Fri, 2 Jun 2023 02:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 17:04:06.913029
- Title: A Convex Relaxation Approach to Bayesian Regret Minimization in Offline
Bandits
- Title(参考訳): オフラインバンディットにおけるベイズ後悔最小化に対する凸緩和法
- Authors: Mohammad Ghavamzadeh, Marek Petrik, Guy Tennenholtz
- Abstract要約: オフラインの盗賊でますます人気が高まっている目的は、ベイズ側の後悔度が低いことを高い信頼で達成する政策を学ぶことである。
本稿では,効率の良い円錐最適化解法を用いて,ベイズ後悔の上限を直接最小化する手法を提案する。
従来の手法と比較して,提案アルゴリズムはより優れた理論的オフラインリフレッシュバウンドと数値シミュレーションによるより良い結果が得られる。
- 参考スコア(独自算出の注目度): 37.15124020888548
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Algorithms for offline bandits must optimize decisions in uncertain
environments using only offline data. A compelling and increasingly popular
objective in offline bandits is to learn a policy which achieves low Bayesian
regret with high confidence. An appealing approach to this problem, inspired by
recent offline reinforcement learning results, is to maximize a form of lower
confidence bound (LCB). This paper proposes a new approach that directly
minimizes upper bounds on Bayesian regret using efficient conic optimization
solvers. Our bounds build on connections among Bayesian regret, Value-at-Risk
(VaR), and chance-constrained optimization. Compared to prior work, our
algorithm attains superior theoretical offline regret bounds and better results
in numerical simulations. Finally, we provide some evidence that popular
LCB-style algorithms may be unsuitable for minimizing Bayesian regret in
offline bandits.
- Abstract(参考訳): オフラインバンディットのためのアルゴリズムは、オフラインデータのみを使用して不確実な環境での決定を最適化する必要がある。
オフラインの盗賊の説得力があり、ますます人気が高まっている目的は、ベイズ人の後悔を高い信頼で減らす政策を学ぶことである。
最近のオフライン強化学習の結果に触発されたこの問題に対する魅力的なアプローチは、低信頼境界(LCB)の形式を最大化することである。
本稿では,効率的な円錐最適化解法を用いてベイズ後悔の上限を最小化する新しい手法を提案する。
我々の限界は、ベイジアン後悔、バリュー・アット・リスク(VaR)、そしてチャンス制約付き最適化のつながりに基づいている。
先行研究と比較して,本アルゴリズムは,理論上優れたオフライン後悔限界と数値シミュレーションにおけるより良い結果が得られる。
最後に、一般的なLCBスタイルのアルゴリズムは、オフラインの盗賊に対するベイズ的後悔を最小限に抑えるには不適当であることを示す。
関連論文リスト
- Bayesian Bandit Algorithms with Approximate Inference in Stochastic Linear Bandits [21.09844002135398]
我々は,線形トンプソンサンプリング (LinTS) とベイズ的上部信頼境界の拡張 (LinBUCB) が,元の後悔の上界の速度を保てることを示す。
また、LinBUCBはLinTSの後悔率を$tildeO(d3/2sqrtT)$から$tildeO(dsqrtT)$に短縮することを示した。
論文 参考訳(メタデータ) (2024-06-20T07:45:38Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Rate-optimal Bayesian Simple Regret in Best Arm Identification [11.389780431092914]
マルチアームバンディット問題における腕の識別について検討する。
本稿では,その先行項を定数係数まで下界にマッチングする,単純で容易に計算できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-18T18:59:35Z) - A Unified Framework for Conservative Exploration [115.7063101600773]
我々は, エージェントに最低限の基準方針の遂行を依頼される保守的制約を条件として, 盗賊と強化学習(RL)について検討する。
本稿では,保守的な盗賊とRLのための統一的な枠組みを提案し,基本方針の運用から得られる必要十分予算を計算することを目的とする。
論文 参考訳(メタデータ) (2021-06-22T11:52:04Z) - Towards Minimax Optimal Best Arm Identification in Linear Bandits [95.22854522340938]
固定予算設定における線形包帯における最適な腕識別の問題について検討する。
G-最適設計の特性を活用し、アーム割り当て規則に組み込むことにより、パラメータフリーなアルゴリズムを設計する。
OD-LinBAIの故障確率に関する理論的解析を行った。
論文 参考訳(メタデータ) (2021-05-27T09:19:10Z) - Optimal Stochastic Nonconvex Optimization with Bandit Feedback [45.675080529219365]
一定の平滑さと部分レベル集合仮定の下で非コスト関数に対する連続武装バンディット問題を解析する。
次に、性能を大幅に向上させる適応分割法を提案する。
論文 参考訳(メタデータ) (2021-03-30T05:21:12Z) - Stage-wise Conservative Linear Bandits [37.717532659194426]
オンライン広告や医療実験などのアプリケーションに現れる(未知の)安全制約を考慮に入れた帯域最適化について検討する。
ベースライン制約を尊重し、順序 O(sqrtT log T) の確率的後悔境界を楽しむ2つの新しいアルゴリズムを提案する。
特に、提案アルゴリズムは、様々な問題に対処するために、小さな修正だけで調整できる。
論文 参考訳(メタデータ) (2020-09-30T19:51:37Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Constrained regret minimization for multi-criterion multi-armed bandits [5.349852254138086]
リスク制約を条件として,所与の時間的地平線上での後悔の最小化の問題について検討する。
本稿では,対数的後悔を保証するリスク制約付き低信頼境界アルゴリズムを提案する。
我々は,リスク制約付き後悔最小化アルゴリズムの性能に低い限界を証明した。
論文 参考訳(メタデータ) (2020-06-17T04:23:18Z) - Locally Differentially Private (Contextual) Bandits Learning [55.63825598391525]
本論文では,局所的差分性(LDP)バンディット学習について検討する。
我々は,DP保証を用いて,文脈自由な帯域幅学習問題を解くことのできる,シンプルなブラックボックス削減フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-01T04:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。