論文の概要: Combining Experimental and Historical Data for Policy Evaluation
- arxiv url: http://arxiv.org/abs/2406.00317v1
- Date: Sat, 1 Jun 2024 06:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 07:44:24.570218
- Title: Combining Experimental and Historical Data for Policy Evaluation
- Title(参考訳): 政策評価のための実験データと歴史的データの組み合わせ
- Authors: Ting Li, Chengchun Shi, Qianglin Wen, Yang Sui, Yongli Qin, Chunbo Lai, Hongtu Zhu,
- Abstract要約: 本研究では,実験データと履歴データに基づいて構築された基本方針値推定器を線形に統合する新たなデータ統合手法を提案する。
報奨シフトシナリオの幅広い範囲にわたって、ロバスト性、効率、特性を導出します。
配車会社による数値実験と実データに基づく分析は,提案した推定器の優れた性能を示す。
- 参考スコア(独自算出の注目度): 17.89146022336492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies policy evaluation with multiple data sources, especially in scenarios that involve one experimental dataset with two arms, complemented by a historical dataset generated under a single control arm. We propose novel data integration methods that linearly integrate base policy value estimators constructed based on the experimental and historical data, with weights optimized to minimize the mean square error (MSE) of the resulting combined estimator. We further apply the pessimistic principle to obtain more robust estimators, and extend these developments to sequential decision making. Theoretically, we establish non-asymptotic error bounds for the MSEs of our proposed estimators, and derive their oracle, efficiency and robustness properties across a broad spectrum of reward shift scenarios. Numerical experiments and real-data-based analyses from a ridesharing company demonstrate the superior performance of the proposed estimators.
- Abstract(参考訳): 本稿では,複数のデータソースを用いた政策評価,特に2つのアームを持つ実験データセットを1つのコントロールアームで生成した履歴データセットで補完するシナリオについて検討する。
実験データと履歴データに基づいて構築された基本方針値推定器を線形に積分する新たなデータ統合手法を提案し,その結果の組合せ推定器の平均二乗誤差(MSE)を最小化するために重みを最適化した。
さらに悲観的原理を適用して、より堅牢な推定値を求め、これらの展開を逐次的な意思決定にまで拡張する。
理論的には、提案した推定器のMSEに対する非漸近誤差境界を確立し、そのオラクル、効率、ロバストネス特性を広い範囲の報酬シフトシナリオで導出する。
配車会社による数値実験と実データに基づく分析は,提案した推定器の優れた性能を示す。
関連論文リスト
- Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。
実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文 参考訳(メタデータ) (2024-01-28T21:19:15Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Data-Driven Sample Average Approximation with Covariate Information [0.0]
我々は、コパラメトリックの同時観測とともに、最適化モデル内の不確実なパラメータの観測を行う際に、データ駆動意思決定のための最適化について検討する。
本稿では,機械学習予測モデルをプログラムサンプル平均近似(SAA)に組み込んだ3つのデータ駆動フレームワークについて検討する。
論文 参考訳(メタデータ) (2022-07-27T14:45:04Z) - Federated Estimation of Causal Effects from Observational Data [19.657789891394504]
フェデレートされたデータソースを用いた因果推論のための新しいフレームワークを提案する。
我々は、異なるプライベートデータソースからの局所因果効果を中央集権化せずに評価し、統合する。
論文 参考訳(メタデータ) (2021-05-31T08:06:00Z) - Off-Policy Evaluation via the Regularized Lagrangian [110.28927184857478]
最近提案された分布補正推定(DICE)ファミリーは, 行動に依存しないデータを用いた非政治的評価において, 技術の現状を推し進めている。
本稿では,これらを線形プログラムの正規化ラグランジアンとして統一する。
双対解は、安定性と推定バイアスの間のトレードオフをナビゲートする際の柔軟性を向上し、一般的にはより優れた見積もりを提供する。
論文 参考訳(メタデータ) (2020-07-07T13:45:56Z) - Off-Policy Evaluation and Learning for External Validity under a
Covariate Shift [32.37842308026544]
我々は,異なる政策から得られた履歴データを用いて,評価データに対する新たなポリシーの評価と訓練を検討する。
オフ政治評価(OPE)の目標は、評価データに対する新しい政策の期待報酬を推定することであり、オフ政治学習(OPL)の目標は、評価データに対する期待報酬を最大化する新しい政策を見つけることである。
論文 参考訳(メタデータ) (2020-02-26T17:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。