Fugu-MT 論文翻訳(概要): Contextual Bandits with Knapsacks for a Conversion Model

論文の概要: Contextual Bandits with Knapsacks for a Conversion Model

arxiv url: http://arxiv.org/abs/2206.00314v1
Date: Wed, 1 Jun 2022 08:29:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-02 16:01:39.406099
Title: Contextual Bandits with Knapsacks for a Conversion Model
Title（参考訳）: コンバージョンモデルのためのナップサック付きコンテキストバンディット
Authors: Zhen Li, Gilles Stoltz (LMO, CELESTE)
Abstract要約: 我々は、報酬生成とコストベクターの間の基盤構造を持つ、クナプサックによる文脈的包帯について考察する。本稿で紹介する手法は後者にも適用可能であることを示す。すなわち、各ラウンドで表される適応ポリシーは、変換の確率が$a$と$mathbfx$の上限信頼度推定に基づいて表される。
参考スコア（独自算出の注目度）: 1.8659901274492419
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider contextual bandits with knapsacks, with an underlying structure between rewards generated and cost vectors suffered. We do so motivated by sales with commercial discounts. At each round, given the stochastic i.i.d.\ context $\mathbf{x}_t$ and the arm picked $a_t$ (corresponding, e.g., to a discount level), a customer conversion may be obtained, in which case a reward $r(a,\mathbf{x}_t)$ is gained and vector costs $c(a_t,\mathbf{x}_t)$ are suffered (corresponding, e.g., to losses of earnings). Otherwise, in the absence of a conversion, the reward and costs are null. The reward and costs achieved are thus coupled through the binary variable measuring conversion or the absence thereof. This underlying structure between rewards and costs is different from the linear structures considered by Agrawal and Devanur [2016] but we show that the techniques introduced in this article may also be applied to the latter case. Namely, the adaptive policies exhibited solve at each round a linear program based on upper-confidence estimates of the probabilities of conversion given $a$ and $\mathbf{x}$. This kind of policy is most natural and achieves a regret bound of the typical order (OPT/$B$) $\sqrt{T}$, where $B$ is the total budget allowed, OPT is the optimal expected reward achievable by a static policy, and $T$ is the number of rounds.
Abstract（参考訳）: 我々は、報酬とコストベクターの間の基盤構造を持つ、knapsackによる文脈的包帯を考える。私たちは商業割引で販売を動機付けている。各ラウンドにおいて、確率的 i.i.d.\コンテキスト$\mathbf{x}_t$ と、arm が $a_t$ を選択(例えば、ディスカウントレベル)すると、顧客変換が得られ、r(a,\mathbf{x}_t)$ が得られ、ベクターコスト $c(a_t,\mathbf{x}_t)$ が負担される(例えば、利益の損失)。そうでなければ、変換がない場合、報酬とコストはヌルである。これにより得られる報酬とコストは、バイナリ変数計測変換またはその欠如によって結合される。この報酬とコストの基本的な構造は、agrawal と devanur [2016] が考える線形構造とは異なるが、本項で紹介する手法が後者の場合にも適用可能であることを示す。すなわち、a$ と $\mathbf{x}$ が与えられる変換の確率の高信頼推定に基づく線形プログラムの各ラウンドにおいて、提示された適応ポリシーが解決される。この種のポリシーは、最も自然なものであり、典型的な順序 (OPT/$B$) $\sqrt{T}$ の後悔の限界を達成する。

関連論文リスト

Variance-Aware Feel-Good Thompson Sampling for Contextual Bandits [54.220839560203096]
FGTSVA, 変分対応型トンプソンサンプリングアルゴリズムを提案する。新しいデカップリング係数を$mathrmdc$で表すと、FGTS-VAは$tildeO(sqrtmathrmdccdotlog|mathcalF|$)を後悔する。文脈線形帯域の設定において、FGTSVAの後悔境界は UCB ベースと一致する
論文参考訳（メタデータ） (2025-11-03T23:25:41Z)
From Contextual Combinatorial Semi-Bandits to Bandit List Classification: Improved Sample Complexity with Sparse Rewards [26.147671458980117]
我々は、入力コンテキストを、可能なアクションの集合の$m$のサブセットにマッピングするコンテキスト半帯域の問題を研究する。文脈的包帯の原型的応用により、我々は$s$スパース体制に焦点をあてる。本フレームワークは,二項報酬ベクトルの特別な場合として,帯域フィードバックを用いたリスト多クラス分類問題を一般化する。
論文参考訳（メタデータ） (2025-02-13T12:13:25Z)
Catoni Contextual Bandits are Robust to Heavy-tailed Rewards [31.381627608971414]
頑健な統計量からカトニ推定器上にアルゴリズム的アプローチを構築する。我々は、累積的な報酬分散と対数的に報酬範囲の$R$にのみ依存する後悔境界を確立する。アルゴリズムはまた、対数的報酬範囲依存を伴う分散ベースのバウンダリも享受する。
論文参考訳（メタデータ） (2025-02-04T17:03:32Z)
Improved Regret Bound for Safe Reinforcement Learning via Tighter Cost Pessimism and Reward Optimism [1.4999444543328293]
本稿では,新しいコストと報酬関数推定器に基づくモデルベースアルゴリズムを提案する。我々のアルゴリズムは、$widetildemathcalO((bar C - bar C_b)-1H2.5 SsqrtAK)$の残念な上限を達成する。
論文参考訳（メタデータ） (2024-10-14T04:51:06Z)
Fast Rates for Bandit PAC Multiclass Classification [73.17969992976501]
我々は,帯域幅フィードバックを用いたマルチクラスPAC学習について検討し,入力を$K$ラベルの1つに分類し,予測されたラベルが正しいか否かに制限する。我々の主な貢献は、問題の無知な$(varepsilon,delta)$PACバージョンのための新しい学習アルゴリズムを設計することである。
論文参考訳（メタデータ） (2024-06-18T08:54:04Z)
Small Total-Cost Constraints in Contextual Bandits with Knapsacks, with Application to Fairness [1.6741394365746018]
我々は,各ラウンドにおいてスカラー報酬が得られ,ベクトル値のコストがかかる問題であるknapsacks[CBwK]のコンテキスト的帯域幅問題を考える。予測段階更新に基づく二元的戦略を導入し,多元対数項まで$sqrtT$の総コスト制約を扱えるようにした。
論文参考訳（メタデータ） (2023-05-25T07:41:35Z)
First- and Second-Order Bounds for Adversarial Linear Contextual Bandits [22.367921675238318]
我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。 V_T$ または $L_T*$ は$T$ よりもかなり小さい可能性があるため、環境が比較的良心的であれば、最悪の場合の後悔よりも改善される。
論文参考訳（メタデータ） (2023-05-01T14:00:15Z)
Communication-Constrained Bandits under Additive Gaussian Noise [111.06688156723018]
クライアントが学習者にコミュニケーション制約のあるフィードバックを提供する分散マルチアームバンディットについて検討する。我々は、この下限を小さな加法係数にマッチさせるマルチフェーズ帯域幅アルゴリズム、$mathtUEtext-UCB++$を提案する。
論文参考訳（メタデータ） (2023-04-25T09:31:20Z)
Variance-aware robust reinforcement learning with linear function approximation with heavy-tailed rewards [6.932056534450556]
AdaOFUL と VARA という2つのアルゴリズムを,重み付き報酬の存在下でのオンラインシーケンシャルな意思決定のために提案する。 AdaOFULは、$widetildemathcalObigの最先端の後悔境界を達成する。 VarA は $widetildemathcalO(dsqrtHmathcalG*K)$ のより厳密な分散を考慮した後悔境界を達成する。
論文参考訳（メタデータ） (2023-03-09T22:16:28Z)
On Submodular Contextual Bandits [92.45432756301231]
作用が基底集合の部分集合であり、平均報酬が未知の単調部分モジュラ函数によってモデル化されるような文脈的包帯の問題を考える。 Inverse Gap Weighting 戦略により,提案アルゴリズムは推定関数の局所的最適度を効率よくランダム化することを示す。
論文参考訳（メタデータ） (2021-12-03T21:42:33Z)
Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文参考訳（メタデータ） (2021-10-25T02:53:24Z)
Variance-Aware Confidence Set: Variance-Dependent Bound for Linear Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文参考訳（メタデータ） (2021-01-29T18:57:52Z)
Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-17T22:32:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。