論文の概要: Metalearners for Ranking Treatment Effects
- arxiv url: http://arxiv.org/abs/2405.02183v1
- Date: Fri, 3 May 2024 15:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 12:26:23.799315
- Title: Metalearners for Ranking Treatment Effects
- Title(参考訳): ランク付け処理のための金属製アラーム
- Authors: Toon Vanderschueren, Wouter Verbeke, Felipe Moraes, Hugo Manuel Proença,
- Abstract要約: 政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
- 参考スコア(独自算出の注目度): 1.469168639465869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficiently allocating treatments with a budget constraint constitutes an important challenge across various domains. In marketing, for example, the use of promotions to target potential customers and boost conversions is limited by the available budget. While much research focuses on estimating causal effects, there is relatively limited work on learning to allocate treatments while considering the operational context. Existing methods for uplift modeling or causal inference primarily estimate treatment effects, without considering how this relates to a profit maximizing allocation policy that respects budget constraints. The potential downside of using these methods is that the resulting predictive model is not aligned with the operational context. Therefore, prediction errors are propagated to the optimization of the budget allocation problem, subsequently leading to a suboptimal allocation policy. We propose an alternative approach based on learning to rank. Our proposed methodology directly learns an allocation policy by prioritizing instances in terms of their incremental profit. We propose an efficient sampling procedure for the optimization of the ranking model to scale our methodology to large-scale data sets. Theoretically, we show how learning to rank can maximize the area under a policy's incremental profit curve. Empirically, we validate our methodology and show its effectiveness in practice through a series of experiments on both synthetic and real-world data.
- Abstract(参考訳): 予算制約で効率的に治療を割り当てることは、様々な領域で重要な課題となっている。
例えば、マーケティングでは、潜在的な顧客をターゲットとし、コンバージョンを促進するためのプロモーションの使用は、利用可能な予算によって制限される。
多くの研究は因果効果の推定に重点を置いているが、運用状況を考慮して治療を割り当てる学習は比較的限られている。
既存のアップリフトモデリングや因果推論の手法は、予算制約を尊重する配分政策の最大化にどのように関係しているかを考慮せずに、主に治療効果を見積もる。
これらの手法の潜在的な欠点は、結果として生じる予測モデルが運用コンテキストと一致していないことである。
そのため、予算配分問題の最適化に予測誤差が伝播し、その後、準最適配分ポリシーが導かれる。
ランク付け学習に基づく代替手法を提案する。
提案手法は,増益率の観点から,インスタンスの優先順位付けによってアロケーションポリシーを直接学習する。
本稿では,我々の方法論を大規模データセットに拡張するために,ランキングモデルの最適化のための効率的なサンプリング手法を提案する。
理論的には、政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
実験により,本手法の有効性を実証し,実世界の合成データと実世界のデータの両方に関する一連の実験を通じて実効性を示す。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Personalized Pricing with Invalid Instrumental Variables:
Identification, Estimation, and Policy Learning [5.372349090093469]
本研究は,インストゥルメンタル変数アプローチを用いて,内在性の下でのオフラインパーソナライズド価格について検討する。
Invalid iNsTrumental変数を用いたパーソナライズされたプライシングのための新しいポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-24T14:50:47Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - To do or not to do: cost-sensitive causal decision-making [3.492636597449942]
二重因果分類のためのコスト感受性決定境界を導入する。
境界は、プラスおよび負の処置クラスの因果的分類インスタンスが予想因果利益を最大化することを可能にする。
期待因果利益を最大化するための事例をランク付けする期待因果利益ランキングを提案する。
論文 参考訳(メタデータ) (2021-01-05T08:36:01Z) - Toward Optimal Probabilistic Active Learning Using a Bayesian Approach [4.380488084997317]
アクティブラーニングは、コストの高いラベリングリソースを効率よく効果的に割り当てることで、ラベリングコストを削減することを目的としている。
提案したモデルにおける既存の選択戦略を再構築することにより、どの側面が現在の最先端に包含されていないかを説明することができる。
論文 参考訳(メタデータ) (2020-06-02T15:59:42Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。