論文の概要: Uplifting Bandits
- arxiv url: http://arxiv.org/abs/2206.04091v1
- Date: Wed, 8 Jun 2022 18:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 13:33:03.298929
- Title: Uplifting Bandits
- Title(参考訳): バンドの引き上げ
- Authors: Yu-Guan Hsieh, Shiva Prasad Kasiviswanathan, Branislav Kveton
- Abstract要約: 報酬は複数の確率変数の和であり、各アクションはそれらの一部の分布だけを変化させるマルチアームバンディットモデルを導入する。
このモデルはマーケティングキャンペーンやレコメンデーションシステムによって動機付けられており、そこでは変数が個々の顧客の結果を表す。
ベースライン上のアクションの上昇を推定する UCB スタイルのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 23.262188897812475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a multi-armed bandit model where the reward is a sum of multiple
random variables, and each action only alters the distributions of some of
them. After each action, the agent observes the realizations of all the
variables. This model is motivated by marketing campaigns and recommender
systems, where the variables represent outcomes on individual customers, such
as clicks. We propose UCB-style algorithms that estimate the uplifts of the
actions over a baseline. We study multiple variants of the problem, including
when the baseline and affected variables are unknown, and prove sublinear
regret bounds for all of these. We also provide lower bounds that justify the
necessity of our modeling assumptions. Experiments on synthetic and real-world
datasets show the benefit of methods that estimate the uplifts over policies
that do not use this structure.
- Abstract(参考訳): 我々は,報酬が複数の確率変数の和であり,各アクションがそれらの分布のみを変化させるマルチアームバンディットモデルを導入する。
各アクションの後、エージェントはすべての変数の実現を観察する。
このモデルは、クリックのような個々の顧客に対する結果を表す変数をマーケティングキャンペーンやレコメンデーションシステムによって動機付けられている。
ベースライン上のアクションの上昇を推定する UCB スタイルのアルゴリズムを提案する。
本研究は,ベースラインと影響変数が未知である場合を含む,問題の複数の変種について検討し,これらすべてに対してサブ線形後悔境界を証明した。
モデリングの前提の必要性を正当化する下限も提供します。
合成および実世界のデータセットの実験は、この構造を使用しないポリシーに対する上昇を見積もる手法の利点を示している。
関連論文リスト
- Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - Optimal Classification under Performative Distribution Shift [13.508249764979075]
本稿では,動作効果をプッシュフォワード尺度としてモデル化した新しい視点を提案する。
我々は、新しい仮定のセットの下で、パフォーマンスリスクの凸性を証明する。
また, 性能リスクの最小化を min-max 変動問題として再定義することにより, 逆向きの頑健な分類との関係を確立する。
論文 参考訳(メタデータ) (2024-11-04T12:20:13Z) - Enhancement of Approximation Spaces by the Use of Primals and Neighborhood [0.0]
近隣と原始」からのインスピレーションを引き出す4つの新しい一般化された粗集合モデルを導入する。
我々は、現在のモデルは、粗い集合モデルに関連するほとんどすべての重要な側面を保存できると主張している。
また、我々の日常的な健康に関する問題に対して定義する新たな戦略が、より正確な発見をもたらすことも示している。
論文 参考訳(メタデータ) (2024-10-23T18:49:13Z) - Combinatorial Causal Bandits [25.012065471684025]
因果的包帯において、学習エージェントは、各ラウンドで最大$K$変数を選択して介入し、ターゲット変数$Y$に対する期待される後悔を最小限にすることを目的としている。
因果モデルの簡潔なパラメトリック表現を用いた二元一般化線形モデル(BGLM)の文脈下で検討する。
マルコフ BGLM に対するアルゴリズム BGLM-OFU を最大推定法に基づいて提案し,O(sqrtTlog T)$ regret, ここでは$T$ が時間地平線となることを示す。
論文 参考訳(メタデータ) (2022-06-04T14:14:58Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Contextual Bandits for Advertising Campaigns: A Diffusion-Model
Independent Approach (Extended Version) [73.59962178534361]
拡散ネットワークや情報伝達の仕方を決定するモデルについてはほとんど知られていないと考えられる影響問題について検討する。
この設定では、キャンペーンの実行中に主要な拡散パラメータを学習するために探索-探索アプローチが使用できる。
本稿では,2つの文脈的マルチアーム・バンディットの手法と,インフルエンサーの残りのポテンシャルに対する上限について比較する。
論文 参考訳(メタデータ) (2022-01-13T22:06:10Z) - Using Non-Stationary Bandits for Learning in Repeated Cournot Games with
Non-Stationary Demand [11.935419090901524]
本稿では,非定常要求の繰り返しCournotゲームについてモデル化する。
エージェントが選択できる武器/アクションのセットは、個別の生産量を表す。
本稿では,よく知られた$epsilon$-greedyアプローチに基づく,新しいアルゴリズム"Adaptive with Weighted Exploration (AWE) $epsilon$-greedy"を提案する。
論文 参考訳(メタデータ) (2022-01-03T05:51:47Z) - A Twin Neural Model for Uplift [59.38563723706796]
Upliftは条件付き治療効果モデリングの特定のケースです。
相対リスクのベイズ解釈との関連性を利用して定義した新たな損失関数を提案する。
本提案手法は,シミュレーション設定の最先端と大規模ランダム化実験による実データとの競合性を示す。
論文 参考訳(メタデータ) (2021-05-11T16:02:39Z) - Adapting Neural Networks for Uplift Models [0.0]
アップリフトは、条件付き平均回帰(i)変換結果回帰(i)を用いて推定される。
既存のアプローチは、アップリフトケースに対する分類木と回帰木の適応である。
本稿ではニューラルネットワークを用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T18:42:56Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。