論文の概要: Long-term Off-Policy Evaluation and Learning
- arxiv url: http://arxiv.org/abs/2404.15691v1
- Date: Wed, 24 Apr 2024 06:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:59:40.933557
- Title: Long-term Off-Policy Evaluation and Learning
- Title(参考訳): 長期オフポリティ評価と学習
- Authors: Yuta Saito, Himan Abdollahpouri, Jesse Anderton, Ben Carterette, Mounia Lalmas,
- Abstract要約: アルゴリズムの短期的および長期的な結果はしばしば異なり、下流効果を損なう。
関心の長期的な結果を見るのに数ヶ月かそれ以上かかるので、アルゴリズムの選択プロセスは受け入れがたいほど遅くなります。
本稿では,報酬関数の分解に基づく長期オフライン評価(LOPE)という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.047613223586794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Short- and long-term outcomes of an algorithm often differ, with damaging downstream effects. A known example is a click-bait algorithm, which may increase short-term clicks but damage long-term user engagement. A possible solution to estimate the long-term outcome is to run an online experiment or A/B test for the potential algorithms, but it takes months or even longer to observe the long-term outcomes of interest, making the algorithm selection process unacceptably slow. This work thus studies the problem of feasibly yet accurately estimating the long-term outcome of an algorithm using only historical and short-term experiment data. Existing approaches to this problem either need a restrictive assumption about the short-term outcomes called surrogacy or cannot effectively use short-term outcomes, which is inefficient. Therefore, we propose a new framework called Long-term Off-Policy Evaluation (LOPE), which is based on reward function decomposition. LOPE works under a more relaxed assumption than surrogacy and effectively leverages short-term rewards to substantially reduce the variance. Synthetic experiments show that LOPE outperforms existing approaches particularly when surrogacy is severely violated and the long-term reward is noisy. In addition, real-world experiments on large-scale A/B test data collected on a music streaming platform show that LOPE can estimate the long-term outcome of actual algorithms more accurately than existing feasible methods.
- Abstract(参考訳): アルゴリズムの短期的および長期的な結果はしばしば異なり、下流効果を損なう。
クリックベイトアルゴリズムは、短期的なクリックを増加させるが、長期的なユーザーエンゲージメントを損なう可能性がある。
長期的な結果を推定する可能な解決策は、潜在的なアルゴリズムに対するオンライン実験またはA/Bテストを実行することであるが、関心の長期的な結果を見るのに数ヶ月またはそれ以上の時間がかかるため、アルゴリズムの選択プロセスは受け入れがたいほど遅くなる。
そこで本研究では, 歴史的および短期的な実験データのみを用いて, アルゴリズムの長期的結果の推定を可能かつ正確に行う問題について検討した。
既存のアプローチでは、サロガシーと呼ばれる短期的な結果に関する制限的な仮定が必要か、あるいは非効率な短期的な結果を有効に利用することができない。
そこで本稿では,報酬関数の分解に基づく長期オフライン評価(LOPE)という新しいフレームワークを提案する。
LOPEは、代理よりもリラックスした仮定の下で機能し、短時間の報酬を効果的に活用して、分散を大幅に減少させる。
合成実験により、LOPEは、特にサロゲーシーが厳しく違反し、長期報酬がうるさい場合に、既存のアプローチよりも優れていることが示された。
さらに,音楽ストリーミングプラットフォーム上で収集された大規模A/Bテストデータに対する実世界の実験により,LOPEは既存の実現可能な手法よりも,実際のアルゴリズムの長期的な結果をより正確に推定できることを示した。
関連論文リスト
- Policy Learning for Balancing Short-Term and Long-Term Rewards [11.859587700058235]
本稿では,長期的成果の欠落を許容する最適政策を学習するための新しい枠組みを定式化する。
短期的な成果は、関連する場合、長期的な報酬バランスの推定能力の向上に寄与することを示す。
論文 参考訳(メタデータ) (2024-05-06T10:09:35Z) - Choosing a Proxy Metric from Past Experiments [54.338884612982405]
多くのランダム化実験では、長期的な計量の処理効果は測定が困難または不可能であることが多い。
一般的な方法は、いくつかの短期的プロキシメトリクスを計測して、長期的メトリックを綿密に追跡することである。
ランダム化実験の同種集団において最適なプロキシメトリックを定義し構築するための新しい統計フレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-14T17:43:02Z) - B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under
Hidden Confounding [51.74479522965712]
本稿では,B-Learnerと呼ばれるメタラーナーを提案する。
我々は、その推定が有効で、鋭く、効率的であることを証明し、既存の方法よりも一般的な条件下で構成推定器に対して準オーラル特性を持つことを示した。
論文 参考訳(メタデータ) (2023-04-20T18:07:19Z) - Estimating long-term causal effects from short-term experiments and
long-term observational data with unobserved confounding [5.854757988966379]
実験データと観測データの両方が利用可能である場合の長期治療効果の同定と推定について検討した。
我々の長期因果効果推定器は、回帰残差と短期実験結果を組み合わせることで得られる。
論文 参考訳(メタデータ) (2023-02-21T12:22:47Z) - A Reinforcement Learning Approach to Estimating Long-term Treatment
Effects [13.371851720834918]
ランダム化実験による制限は、長期効果を測定するために容易に拡張できないことである。
マルコフ過程における平均報酬を推定する強化学習(RL)アプローチを採用する。
観測された状態遷移が非定常である実世界のシナリオに動機付けられ、非定常問題のクラスのための新しいアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-10-14T05:33:19Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Long-term Causal Inference Under Persistent Confounding via Data Combination [38.026740610259225]
実験データと観測データの両方が利用可能である場合の長期治療効果の同定と推定について検討した。
長期の成果は長期間の遅延後にのみ観測されるため、実験データでは測定されず、観測データでのみ記録される。
論文 参考訳(メタデータ) (2022-02-15T07:44:20Z) - Long-Term Effect Estimation with Surrogate Representation [43.932546958874696]
本研究は、一次利害関係(一次利害関係)の結果が蓄積されるまでに数ヶ月、あるいは数年を要する長期的効果の問題を研究する。
本稿では,機械学習における因果推論と逐次モデルとの接続を構築することを提案する。
論文 参考訳(メタデータ) (2020-08-19T03:16:18Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Time-varying Gaussian Process Bandit Optimization with Non-constant
Evaluation Time [93.6788993843846]
非定常評価時間を効果的に処理できる新しい時間変化ベイズ最適化アルゴリズムを提案する。
我々の限界は、評価時間列のパターンが問題の難易度に大きな影響を与えることを決定づける。
論文 参考訳(メタデータ) (2020-03-10T13:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。