論文の概要: Targeting for long-term outcomes
- arxiv url: http://arxiv.org/abs/2010.15835v2
- Date: Sat, 9 Apr 2022 17:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 22:35:23.727205
- Title: Targeting for long-term outcomes
- Title(参考訳): 長期的成果のターゲティング
- Authors: Jeremy Yang, Dean Eckles, Paramveer Dhillon, Sinan Aral
- Abstract要約: 意思決定者は、長期的にのみ観察される結果を最大化するために、介入を標的にしたい場合が多い。
ここでは、欠落した長期的成果を暗示するために、統計的代理と政策学習文献に基づいて構築する。
The Boston Globeにおける2つの大規模プロアクティブチャーン管理実験に本手法を適用した。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision makers often want to target interventions so as to maximize an
outcome that is observed only in the long-term. This typically requires
delaying decisions until the outcome is observed or relying on simple
short-term proxies for the long-term outcome. Here we build on the statistical
surrogacy and policy learning literatures to impute the missing long-term
outcomes and then approximate the optimal targeting policy on the imputed
outcomes via a doubly-robust approach. We first show that conditions for the
validity of average treatment effect estimation with imputed outcomes are also
sufficient for valid policy evaluation and optimization; furthermore, these
conditions can be somewhat relaxed for policy optimization. We apply our
approach in two large-scale proactive churn management experiments at The
Boston Globe by targeting optimal discounts to its digital subscribers with the
aim of maximizing long-term revenue. Using the first experiment, we evaluate
this approach empirically by comparing the policy learned using imputed
outcomes with a policy learned on the ground-truth, long-term outcomes. The
performance of these two policies is statistically indistinguishable, and we
rule out large losses from relying on surrogates. Our approach also outperforms
a policy learned on short-term proxies for the long-term outcome. In a second
field experiment, we implement the optimal targeting policy with additional
randomized exploration, which allows us to update the optimal policy for future
subscribers. Over three years, our approach had a net-positive revenue impact
in the range of $4-5 million compared to the status quo.
- Abstract(参考訳): 意思決定者は、長期的にのみ観察される成果を最大化するために、しばしば介入を目標にしたいと考えている。
これは一般的に、結果が観察されるまで決定を遅らせるか、あるいは長期的な結果に単純な短期プロキシに依存する。
ここでは, 長期的成果の欠落を暗示するために, 統計的サーロガシーと政策学習文献を基礎として, 二重ロバストアプローチによる意図的成果に対する最適ターゲティング政策を近似する。
まず, 平均的治療効果評価の妥当性を示す条件が有効な政策評価と最適化に十分であることを示すとともに, これらの条件が政策最適化にある程度緩和できることを示す。
このアプローチをボストングローブの2つの大規模プロアクティブチャーンマネジメント実験に適用し,長期収益を最大化するために,デジタル加入者に対する最適割引を目標とした。
最初の実験から,提案手法を実証的に評価し,インプット結果を用いて学習した政策と,根本的,長期的結果に基づいて学習した政策とを比較した。
これら2つの政策のパフォーマンスは統計的に区別不能であり、サロゲートに依存しない大きな損失を排除します。
また,我々のアプローチは,長期的成果のために短期的プロキシで学んだ政策を上回ります。
第2のフィールド実験では、さらなるランダム化探索による最適ターゲティングポリシーを実装し、将来の加入者に対して最適なポリシーを更新することができる。
当社のアプローチは3年間で4500万ドル(約4億5500万円)の純利益に影響を与えました。
関連論文リスト
- Efficient Multi-Policy Evaluation for Reinforcement Learning [25.83084281519926]
対象とするすべてのポリシーにおける推定器のばらつきを低減するために、調整された行動ポリシーを設計する。
推定器は, 従来の最適手法に比べて, かなり低いばらつきを有することを示す。
論文 参考訳(メタデータ) (2024-08-16T12:33:40Z) - Analyzing and Bridging the Gap between Maximizing Total Reward and Discounted Reward in Deep Reinforcement Learning [17.245293915129942]
深層強化学習では、全報酬を最大化するのではなく、割引報酬の最大化がしばしば用いられる。
我々は,全報酬を最大化する政策に関連して,割引報酬を最大化することで得られる政策の最適度を分析した。
そこで我々は,強化学習アルゴリズムの性能向上を図るため,ある状況下で2つの目的の最適ポリシーを整合させる手法を開発した。
論文 参考訳(メタデータ) (2024-07-18T08:33:10Z) - Policy Learning for Balancing Short-Term and Long-Term Rewards [11.859587700058235]
本稿では,長期的成果の欠落を許容する最適政策を学習するための新しい枠組みを定式化する。
短期的な成果は、関連する場合、長期的な報酬バランスの推定能力の向上に寄与することを示す。
論文 参考訳(メタデータ) (2024-05-06T10:09:35Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Machine Learning Who to Nudge: Causal vs Predictive Targeting in a Field Experiment on Student Financial Aid Renewal [5.044100238869374]
53,000人以上の大学生を対象に,大規模フィールド実験におけるターゲットの価値を分析した。
低ベースライン結果に基づくターゲティングが最も有効であることを示す。
論文 参考訳(メタデータ) (2023-10-12T19:08:45Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Batch Policy Learning in Average Reward Markov Decision Processes [3.9023554886892438]
モバイル健康アプリケーションに動機づけられた我々は、長期的な平均報酬を最大化する政策を学ぶことに集中する。
パラメータ化されたポリシークラスで最適ポリシーを計算する最適化アルゴリズムを開発した。
推定ポリシのパフォーマンスは、ポリシークラスにおける最適平均報酬と推定ポリシの平均報酬との差によって測定される。
論文 参考訳(メタデータ) (2020-07-23T03:28:14Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。