論文の概要: Bayesian Regret Minimization in Offline Bandits
- arxiv url: http://arxiv.org/abs/2306.01237v3
- Date: Tue, 2 Jul 2024 21:10:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 20:52:46.287917
- Title: Bayesian Regret Minimization in Offline Bandits
- Title(参考訳): オフライン帯域におけるベイズレジスト最小化
- Authors: Marek Petrik, Guy Tennenholtz, Mohammad Ghavamzadeh,
- Abstract要約: オフライン線形包帯におけるベイズ的後悔を最小限に抑える決定の仕方について検討する。
LCBへの依存は本質的にこの設定に欠陥がある、と我々は主張する。
我々の限界は金融リスク対策への新たなつながりに大きく依存している。
- 参考スコア(独自算出の注目度): 35.7981453841683
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We study how to make decisions that minimize Bayesian regret in offline linear bandits. Prior work suggests that one must take actions with maximum lower confidence bound (LCB) on their reward. We argue that the reliance on LCB is inherently flawed in this setting and propose a new algorithm that directly minimizes upper bounds on the Bayesian regret using efficient conic optimization solvers. Our bounds build heavily on new connections to monetary risk measures. Proving a matching lower bound, we show that our upper bounds are tight, and by minimizing them we are guaranteed to outperform the LCB approach. Our numerical results on synthetic domains confirm that our approach is superior to LCB.
- Abstract(参考訳): オフライン線形包帯におけるベイズ的後悔を最小限に抑える決定の仕方について検討する。
以前の研究は、報酬に対して最大低信頼境界(LCB)で行動しなくてはならないことを示唆している。
我々は, LCB への依存は本質的にこの設定に欠陥があることを論じ, 効率的な円錐最適化解法を用いて, ベイズ後悔の上限を直接最小化するアルゴリズムを提案する。
我々の限界は金融リスク対策への新たなつながりに大きく依存している。
一致した下界を証明し、上界がきついことを示し、それらを最小化することで、LCBアプローチを上回ることが保証される。
合成ドメインの数値結果から, LCBよりもアプローチが優れていることが確認された。
関連論文リスト
- Bayesian Bandit Algorithms with Approximate Inference in Stochastic Linear Bandits [21.09844002135398]
我々は,線形トンプソンサンプリング (LinTS) とベイズ的上部信頼境界の拡張 (LinBUCB) が,元の後悔の上界の速度を保てることを示す。
また、LinBUCBはLinTSの後悔率を$tildeO(d3/2sqrtT)$から$tildeO(dsqrtT)$に短縮することを示した。
論文 参考訳(メタデータ) (2024-06-20T07:45:38Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Rate-optimal Bayesian Simple Regret in Best Arm Identification [11.389780431092914]
マルチアームバンディット問題における腕の識別について検討する。
本稿では,その先行項を定数係数まで下界にマッチングする,単純で容易に計算できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-18T18:59:35Z) - A Unified Framework for Conservative Exploration [115.7063101600773]
我々は, エージェントに最低限の基準方針の遂行を依頼される保守的制約を条件として, 盗賊と強化学習(RL)について検討する。
本稿では,保守的な盗賊とRLのための統一的な枠組みを提案し,基本方針の運用から得られる必要十分予算を計算することを目的とする。
論文 参考訳(メタデータ) (2021-06-22T11:52:04Z) - Towards Minimax Optimal Best Arm Identification in Linear Bandits [95.22854522340938]
固定予算設定における線形包帯における最適な腕識別の問題について検討する。
G-最適設計の特性を活用し、アーム割り当て規則に組み込むことにより、パラメータフリーなアルゴリズムを設計する。
OD-LinBAIの故障確率に関する理論的解析を行った。
論文 参考訳(メタデータ) (2021-05-27T09:19:10Z) - Optimal Stochastic Nonconvex Optimization with Bandit Feedback [45.675080529219365]
一定の平滑さと部分レベル集合仮定の下で非コスト関数に対する連続武装バンディット問題を解析する。
次に、性能を大幅に向上させる適応分割法を提案する。
論文 参考訳(メタデータ) (2021-03-30T05:21:12Z) - Stage-wise Conservative Linear Bandits [37.717532659194426]
オンライン広告や医療実験などのアプリケーションに現れる(未知の)安全制約を考慮に入れた帯域最適化について検討する。
ベースライン制約を尊重し、順序 O(sqrtT log T) の確率的後悔境界を楽しむ2つの新しいアルゴリズムを提案する。
特に、提案アルゴリズムは、様々な問題に対処するために、小さな修正だけで調整できる。
論文 参考訳(メタデータ) (2020-09-30T19:51:37Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Constrained regret minimization for multi-criterion multi-armed bandits [5.349852254138086]
リスク制約を条件として,所与の時間的地平線上での後悔の最小化の問題について検討する。
本稿では,対数的後悔を保証するリスク制約付き低信頼境界アルゴリズムを提案する。
我々は,リスク制約付き後悔最小化アルゴリズムの性能に低い限界を証明した。
論文 参考訳(メタデータ) (2020-06-17T04:23:18Z) - Locally Differentially Private (Contextual) Bandits Learning [55.63825598391525]
本論文では,局所的差分性(LDP)バンディット学習について検討する。
我々は,DP保証を用いて,文脈自由な帯域幅学習問題を解くことのできる,シンプルなブラックボックス削減フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-01T04:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。