論文の概要: Uplifting Bandits
- arxiv url: http://arxiv.org/abs/2206.04091v1
- Date: Wed, 8 Jun 2022 18:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 13:33:03.298929
- Title: Uplifting Bandits
- Title(参考訳): バンドの引き上げ
- Authors: Yu-Guan Hsieh, Shiva Prasad Kasiviswanathan, Branislav Kveton
- Abstract要約: 報酬は複数の確率変数の和であり、各アクションはそれらの一部の分布だけを変化させるマルチアームバンディットモデルを導入する。
このモデルはマーケティングキャンペーンやレコメンデーションシステムによって動機付けられており、そこでは変数が個々の顧客の結果を表す。
ベースライン上のアクションの上昇を推定する UCB スタイルのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 23.262188897812475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a multi-armed bandit model where the reward is a sum of multiple
random variables, and each action only alters the distributions of some of
them. After each action, the agent observes the realizations of all the
variables. This model is motivated by marketing campaigns and recommender
systems, where the variables represent outcomes on individual customers, such
as clicks. We propose UCB-style algorithms that estimate the uplifts of the
actions over a baseline. We study multiple variants of the problem, including
when the baseline and affected variables are unknown, and prove sublinear
regret bounds for all of these. We also provide lower bounds that justify the
necessity of our modeling assumptions. Experiments on synthetic and real-world
datasets show the benefit of methods that estimate the uplifts over policies
that do not use this structure.
- Abstract(参考訳): 我々は,報酬が複数の確率変数の和であり,各アクションがそれらの分布のみを変化させるマルチアームバンディットモデルを導入する。
各アクションの後、エージェントはすべての変数の実現を観察する。
このモデルは、クリックのような個々の顧客に対する結果を表す変数をマーケティングキャンペーンやレコメンデーションシステムによって動機付けられている。
ベースライン上のアクションの上昇を推定する UCB スタイルのアルゴリズムを提案する。
本研究は,ベースラインと影響変数が未知である場合を含む,問題の複数の変種について検討し,これらすべてに対してサブ線形後悔境界を証明した。
モデリングの前提の必要性を正当化する下限も提供します。
合成および実世界のデータセットの実験は、この構造を使用しないポリシーに対する上昇を見積もる手法の利点を示している。
関連論文リスト
- Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Combinatorial Causal Bandits [25.012065471684025]
因果的包帯において、学習エージェントは、各ラウンドで最大$K$変数を選択して介入し、ターゲット変数$Y$に対する期待される後悔を最小限にすることを目的としている。
因果モデルの簡潔なパラメトリック表現を用いた二元一般化線形モデル(BGLM)の文脈下で検討する。
マルコフ BGLM に対するアルゴリズム BGLM-OFU を最大推定法に基づいて提案し,O(sqrtTlog T)$ regret, ここでは$T$ が時間地平線となることを示す。
論文 参考訳(メタデータ) (2022-06-04T14:14:58Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Contextual Bandits for Advertising Campaigns: A Diffusion-Model
Independent Approach (Extended Version) [73.59962178534361]
拡散ネットワークや情報伝達の仕方を決定するモデルについてはほとんど知られていないと考えられる影響問題について検討する。
この設定では、キャンペーンの実行中に主要な拡散パラメータを学習するために探索-探索アプローチが使用できる。
本稿では,2つの文脈的マルチアーム・バンディットの手法と,インフルエンサーの残りのポテンシャルに対する上限について比較する。
論文 参考訳(メタデータ) (2022-01-13T22:06:10Z) - Using Non-Stationary Bandits for Learning in Repeated Cournot Games with
Non-Stationary Demand [11.935419090901524]
本稿では,非定常要求の繰り返しCournotゲームについてモデル化する。
エージェントが選択できる武器/アクションのセットは、個別の生産量を表す。
本稿では,よく知られた$epsilon$-greedyアプローチに基づく,新しいアルゴリズム"Adaptive with Weighted Exploration (AWE) $epsilon$-greedy"を提案する。
論文 参考訳(メタデータ) (2022-01-03T05:51:47Z) - A Twin Neural Model for Uplift [59.38563723706796]
Upliftは条件付き治療効果モデリングの特定のケースです。
相対リスクのベイズ解釈との関連性を利用して定義した新たな損失関数を提案する。
本提案手法は,シミュレーション設定の最先端と大規模ランダム化実験による実データとの競合性を示す。
論文 参考訳(メタデータ) (2021-05-11T16:02:39Z) - Adapting Neural Networks for Uplift Models [0.0]
アップリフトは、条件付き平均回帰(i)変換結果回帰(i)を用いて推定される。
既存のアプローチは、アップリフトケースに対する分類木と回帰木の適応である。
本稿ではニューラルネットワークを用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T18:42:56Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Influence Diagram Bandits: Variational Thompson Sampling for Structured
Bandit Problems [40.957688390621385]
我々のフレームワークは、アクション、潜伏変数、観察の間の複雑な統計的依存関係をキャプチャする。
我々のモデルで効率的に行動することを学ぶ新しいオンライン学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-07-09T16:25:40Z) - Categorized Bandits [17.865068872754293]
我々は、注文されたカテゴリーの中で腕をグループ化する、新しいマルチアーム・バンディット・セッティングを導入する。
モチベーションの例はeコマースから来ており、顧客は通常、特定の明確に識別されているが未知のカテゴリーの商品に対して、他のどの商品よりも高い欲求を持っている。
論文 参考訳(メタデータ) (2020-05-04T17:09:22Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。