論文の概要: Markovian Interference in Experiments
- arxiv url: http://arxiv.org/abs/2206.02371v2
- Date: Thu, 9 Jun 2022 14:13:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 10:59:47.719783
- Title: Markovian Interference in Experiments
- Title(参考訳): 実験におけるマルコフ干渉
- Authors: Vivek F. Farias, Andrew A. Li, Tianyi Peng, Andrew Zheng
- Abstract要約: いくつかの実験ユニットへの介入が制限的制約によって他のユニットに影響を及ぼす力学系の実験について考察する。
実用的重要性を誇張しているにもかかわらず、この問題の最良の推定者は、主に本質的であり、そのバイアスはよく理解されていない。
オフ・ポリティクスの見積もり者は、偏見のないが、明らかに最先端の代替手段と比較して大きなペナルティを生んでいる。
本稿では,DQ(差分-In-Q)推定器を提案する。
- 参考スコア(独自算出の注目度): 7.426870925611945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider experiments in dynamical systems where interventions on some
experimental units impact other units through a limiting constraint (such as a
limited inventory). Despite outsize practical importance, the best estimators
for this `Markovian' interference problem are largely heuristic in nature, and
their bias is not well understood. We formalize the problem of inference in
such experiments as one of policy evaluation. Off-policy estimators, while
unbiased, apparently incur a large penalty in variance relative to
state-of-the-art heuristics. We introduce an on-policy estimator: the
Differences-In-Q's (DQ) estimator. We show that the DQ estimator can in general
have exponentially smaller variance than off-policy evaluation. At the same
time, its bias is second order in the impact of the intervention. This yields a
striking bias-variance tradeoff so that the DQ estimator effectively dominates
state-of-the-art alternatives. From a theoretical perspective, we introduce
three separate novel techniques that are of independent interest in the theory
of Reinforcement Learning (RL). Our empirical evaluation includes a set of
experiments on a city-scale ride-hailing simulator.
- Abstract(参考訳): 実験ユニットへの介入が制限的制約(在庫制限など)を通じて他のユニットに影響を及ぼす力学系の実験について考察する。
この「マルコフ的」干渉問題に対する最良の推定者は、実用的重要性は大きいが、自然界では概ねヒューリスティックであり、そのバイアスはよく理解されていない。
我々は,政策評価の1つとして,推論の問題を定式化する。
政治以外の推定者は、偏見のないが、明らかに最先端のヒューリスティックスと比較して大きなペナルティをもたらす。
本稿では,DQ(差分-In-Q)推定器を提案する。
概してDQ推定器は,非政治評価よりも指数関数的に分散が小さいことを示す。
同時に、そのバイアスは介入の影響の第2次となる。
これは、DQ推定器が最先端の代替品を効果的に支配するように、顕著なバイアス分散トレードオフをもたらす。
理論的観点からは、強化学習の理論(rl)に独立した関心を持つ3つの異なる新しい手法を導入する。
我々の経験的評価は、都市規模の配車シミュレータの実験を含む。
関連論文リスト
- Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Doubly Robust Estimator for Off-Policy Evaluation with Large Action
Spaces [0.951828574518325]
大規模行動空間を持つ文脈的帯域設定におけるオフ・ポリティ・アセスメントについて検討する。
ベンチマーク評価者は 厳しい偏見と ばらつきのトレードオフに苦しむ
本稿では,これらの制約を克服するために,Marginalized Doubly Robust (MDR) 推定器を提案する。
論文 参考訳(メタデータ) (2023-08-07T10:00:07Z) - Leveraging Factored Action Spaces for Off-Policy Evaluation [0.0]
オフ・ポリティィ・アセスメント(OPE: Off-policy Evaluation)は、反現実的な行動列に従う利点を推定することを目的としている。
既存のOPE推定器は、大きく分解された作用空間に関わる問題において、高いバイアスと高いばらつきを示すことが多い。
本稿では,因子的作用空間に基づく「分解」重要サンプリング(IS)推定器の新たなファミリーを提案する。
論文 参考訳(メタデータ) (2023-07-13T18:34:14Z) - Correcting for Interference in Experiments: A Case Study at Douyin [9.586075896428177]
干渉は、Douyin(中国TikTokのアナログ)のような二面的コンテンツマーケットプレースで実施される実験において、ユビキタスな問題である。
そこで我々は,モンテカルロの「DQ(Differences-in-Qs)」技術に基づく新しいモンテカルロ推定手法を提案する。
我々は,Douyinの実験プラットフォーム上に推定器を実装し,その過程で実世界の環境に干渉する真の「プラグ・アンド・プレイ」推定器としてDQを開発した。
論文 参考訳(メタデータ) (2023-05-04T04:30:30Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Neighborhood Adaptive Estimators for Causal Inference under Network
Interference [152.4519491244279]
我々は,古典的非干渉仮説の違反を考える。つまり,ある個人に対する治療が他者の結果に影響を及ぼす可能性がある。
干渉をトラクタブルにするために、干渉がどのように進行するかを記述する既知のネットワークを考える。
このような環境下での処理に対する平均的直接的処理効果の予測について検討した。
論文 参考訳(メタデータ) (2022-12-07T14:53:47Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。
我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。
我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文 参考訳(メタデータ) (2021-06-10T06:11:55Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Valid Causal Inference with (Some) Invalid Instruments [24.794879633855373]
排他的仮定違反にも拘わらず、一貫したIV推定を行う方法を示す。
我々は,深層ネットワークに基づく推定器のアンサンブルを用いて条件平均処理効果を正確に推定する。
論文 参考訳(メタデータ) (2020-06-19T21:09:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。