論文の概要: Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation
- arxiv url: http://arxiv.org/abs/2302.02570v1
- Date: Mon, 6 Feb 2023 05:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 17:31:38.237118
- Title: Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation
- Title(参考訳): アルゴリズム資源割当のランダム化試行における政策評価の改善
- Authors: Aditya Mate, Bryan Wilder, Aparna Taneja, Milind Tambe
- Abstract要約: 提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
- 参考スコア(独自算出の注目度): 54.72195809248172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the task of evaluating policies of algorithmic resource
allocation through randomized controlled trials (RCTs). Such policies are
tasked with optimizing the utilization of limited intervention resources, with
the goal of maximizing the benefits derived. Evaluation of such allocation
policies through RCTs proves difficult, notwithstanding the scale of the trial,
because the individuals' outcomes are inextricably interlinked through resource
constraints controlling the policy decisions. Our key contribution is to
present a new estimator leveraging our proposed novel concept, that involves
retrospective reshuffling of participants across experimental arms at the end
of an RCT. We identify conditions under which such reassignments are
permissible and can be leveraged to construct counterfactual trials, whose
outcomes can be accurately ascertained, for free. We prove theoretically that
such an estimator is more accurate than common estimators based on sample means
-- we show that it returns an unbiased estimate and simultaneously reduces
variance. We demonstrate the value of our approach through empirical
experiments on synthetic, semi-synthetic as well as real case study data and
show improved estimation accuracy across the board.
- Abstract(参考訳): ランダム化制御試験(RCT)によるアルゴリズム資源配分の政策評価の課題を考察する。
このような政策は、限られた介入資源の利用を最適化し、得られる利益を最大化することを目的としている。
RCTによるアロケーションポリシーの評価は、試験の規模にかかわらず、個人の成果が政策決定を制御するリソース制約によって厳密にリンクされているため、困難である。
我々の重要な貢献は、RCTの終わりに実験アームをまたいだ参加者の振り返りを含む、提案した新しい概念を活用する新しい推定器を提供することである。
我々は,このような再割り当てが許容できる条件を特定し,その成果を正確に確認できる反事実裁判を無償で構築する。
このような推定器はサンプル手段に基づいて一般的な推定器よりも正確であることを理論的に証明し、偏りのない推定値を返し、同時に分散を減少させることを示した。
提案手法は, 合成, 半合成, 実事例データを用いて実験を行い, 評価精度の向上を示す。
関連論文リスト
- Evaluating the Effectiveness of Index-Based Treatment Allocation [42.040099398176665]
リソースが不足している場合には、リソースを誰が受け取るかを決定するためにアロケーションポリシーが必要である。
本稿では、ランダム化制御試験のデータを用いて、インデックスベースのアロケーションポリシーを評価する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:55:55Z) - Marginal Density Ratio for Off-Policy Evaluation in Contextual Bandits [41.91108406329159]
文脈的包帯におけるオフ・ポリティ・アセスメント(OPE)は、コストのかかる実験をせずに既存のデータを用いて新しいポリシーを評価するために不可欠である。
我々は、文脈的盗賊のための新しいOPE推定器、Marginal Ratio (MR) 推定器を導入する。
論文 参考訳(メタデータ) (2023-12-03T17:04:57Z) - RCT Rejection Sampling for Causal Estimation Evaluation [25.845034753006367]
コンバウンディングは、観測データから因果効果の偏りのない推定に対する重要な障害である。
評価設計を簡略化し,実データを使用する,有望な実証評価戦略を構築した。
提案アルゴリズムは, 既成試料からオラクル推定器を評価した場合に, バイアスが小さくなることを示す。
論文 参考訳(メタデータ) (2023-07-27T20:11:07Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Optimal Treatment Regimes for Proximal Causal Learning [7.672587258250301]
そこで本研究では,橋梁における結果と治療の相違に基づく最適な個別化治療体制を提案する。
この新たな最適治療体制の価値関数は,文献上に存在するものよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:29:25Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。
この課題に対処するための新しいクロスバリデーションのような方法論を提供する。
本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文 参考訳(メタデータ) (2021-12-14T17:53:01Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。