論文の概要: Contextual Bandits with Knapsacks for a Conversion Model
- arxiv url: http://arxiv.org/abs/2206.00314v1
- Date: Wed, 1 Jun 2022 08:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 16:01:39.406099
- Title: Contextual Bandits with Knapsacks for a Conversion Model
- Title(参考訳): コンバージョンモデルのためのナップサック付きコンテキストバンディット
- Authors: Zhen Li, Gilles Stoltz (LMO, CELESTE)
- Abstract要約: 我々は、報酬生成とコストベクターの間の基盤構造を持つ、クナプサックによる文脈的包帯について考察する。
本稿で紹介する手法は後者にも適用可能であることを示す。
すなわち、各ラウンドで表される適応ポリシーは、変換の確率が$a$と$mathbfx$の上限信頼度推定に基づいて表される。
- 参考スコア(独自算出の注目度): 1.8659901274492419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider contextual bandits with knapsacks, with an underlying structure
between rewards generated and cost vectors suffered. We do so motivated by
sales with commercial discounts. At each round, given the stochastic i.i.d.\
context $\mathbf{x}_t$ and the arm picked $a_t$ (corresponding, e.g., to a
discount level), a customer conversion may be obtained, in which case a reward
$r(a,\mathbf{x}_t)$ is gained and vector costs $c(a_t,\mathbf{x}_t)$ are
suffered (corresponding, e.g., to losses of earnings). Otherwise, in the
absence of a conversion, the reward and costs are null. The reward and costs
achieved are thus coupled through the binary variable measuring conversion or
the absence thereof. This underlying structure between rewards and costs is
different from the linear structures considered by Agrawal and Devanur [2016]
but we show that the techniques introduced in this article may also be applied
to the latter case. Namely, the adaptive policies exhibited solve at each round
a linear program based on upper-confidence estimates of the probabilities of
conversion given $a$ and $\mathbf{x}$. This kind of policy is most natural and
achieves a regret bound of the typical order (OPT/$B$) $\sqrt{T}$, where $B$ is
the total budget allowed, OPT is the optimal expected reward achievable by a
static policy, and $T$ is the number of rounds.
- Abstract(参考訳): 我々は、報酬とコストベクターの間の基盤構造を持つ、knapsackによる文脈的包帯を考える。
私たちは商業割引で販売を動機付けている。
各ラウンドにおいて、確率的 i.i.d.\コンテキスト$\mathbf{x}_t$ と、arm が $a_t$ を選択(例えば、ディスカウントレベル)すると、顧客変換が得られ、r(a,\mathbf{x}_t)$ が得られ、ベクターコスト $c(a_t,\mathbf{x}_t)$ が負担される(例えば、利益の損失)。
そうでなければ、変換がない場合、報酬とコストはヌルである。
これにより得られる報酬とコストは、バイナリ変数計測変換またはその欠如によって結合される。
この報酬とコストの基本的な構造は、agrawal と devanur [2016] が考える線形構造とは異なるが、本項で紹介する手法が後者の場合にも適用可能であることを示す。
すなわち、a$ と $\mathbf{x}$ が与えられる変換の確率の高信頼推定に基づく線形プログラムの各ラウンドにおいて、提示された適応ポリシーが解決される。
この種のポリシーは、最も自然なものであり、典型的な順序 (OPT/$B$) $\sqrt{T}$ の後悔の限界を達成する。
関連論文リスト
- Improved Regret Bound for Safe Reinforcement Learning via Tighter Cost Pessimism and Reward Optimism [1.4999444543328293]
本稿では,新しいコストと報酬関数推定器に基づくモデルベースアルゴリズムを提案する。
我々のアルゴリズムは、$widetildemathcalO((bar C - bar C_b)-1H2.5 SsqrtAK)$の残念な上限を達成する。
論文 参考訳(メタデータ) (2024-10-14T04:51:06Z) - Fast Rates for Bandit PAC Multiclass Classification [73.17969992976501]
我々は,帯域幅フィードバックを用いたマルチクラスPAC学習について検討し,入力を$K$ラベルの1つに分類し,予測されたラベルが正しいか否かに制限する。
我々の主な貢献は、問題の無知な$(varepsilon,delta)$PACバージョンのための新しい学習アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2024-06-18T08:54:04Z) - Small Total-Cost Constraints in Contextual Bandits with Knapsacks, with
Application to Fairness [1.6741394365746018]
我々は,各ラウンドにおいてスカラー報酬が得られ,ベクトル値のコストがかかる問題であるknapsacks[CBwK]のコンテキスト的帯域幅問題を考える。
予測段階更新に基づく二元的戦略を導入し,多元対数項まで$sqrtT$の総コスト制約を扱えるようにした。
論文 参考訳(メタデータ) (2023-05-25T07:41:35Z) - First- and Second-Order Bounds for Adversarial Linear Contextual Bandits [22.367921675238318]
我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。
V_T$ または $L_T*$ は$T$ よりもかなり小さい可能性があるため、環境が比較的良心的であれば、最悪の場合の後悔よりも改善される。
論文 参考訳(メタデータ) (2023-05-01T14:00:15Z) - Communication-Constrained Bandits under Additive Gaussian Noise [111.06688156723018]
クライアントが学習者にコミュニケーション制約のあるフィードバックを提供する分散マルチアームバンディットについて検討する。
我々は、この下限を小さな加法係数にマッチさせるマルチフェーズ帯域幅アルゴリズム、$mathtUEtext-UCB++$を提案する。
論文 参考訳(メタデータ) (2023-04-25T09:31:20Z) - On Submodular Contextual Bandits [92.45432756301231]
作用が基底集合の部分集合であり、平均報酬が未知の単調部分モジュラ函数によってモデル化されるような文脈的包帯の問題を考える。
Inverse Gap Weighting 戦略により,提案アルゴリズムは推定関数の局所的最適度を効率よくランダム化することを示す。
論文 参考訳(メタデータ) (2021-12-03T21:42:33Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。