論文の概要: Statistical Estimation of Confounded Linear MDPs: An Instrumental
Variable Approach
- arxiv url: http://arxiv.org/abs/2209.05186v1
- Date: Mon, 12 Sep 2022 12:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:31:45.238727
- Title: Statistical Estimation of Confounded Linear MDPs: An Instrumental
Variable Approach
- Title(参考訳): 共起線形MDPの統計的推定:機器変数によるアプローチ
- Authors: Miao Lu, Wenhao Yang, Liangyu Zhang, Zhihua Zhang
- Abstract要約: 観測可能な機器変数を持つMDPにおけるOPEの統計的性質について検討した。
楽器変数を用いた線形MDPの2段階推定器の統計的結果を示すのはこれが初めてである。
- 参考スコア(独自算出の注目度): 16.855269228087653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In an Markov decision process (MDP), unobservable confounders may exist and
have impacts on the data generating process, so that the classic off-policy
evaluation (OPE) estimators may fail to identify the true value function of the
target policy. In this paper, we study the statistical properties of OPE in
confounded MDPs with observable instrumental variables. Specifically, we
propose a two-stage estimator based on the instrumental variables and establish
its statistical properties in the confounded MDPs with a linear structure. For
non-asymptotic analysis, we prove a $\mathcal{O}(n^{-1/2})$-error bound where
$n$ is the number of samples. For asymptotic analysis, we prove that the
two-stage estimator is asymptotically normal with a typical rate of $n^{1/2}$.
To the best of our knowledge, we are the first to show such statistical results
of the two-stage estimator for confounded linear MDPs via instrumental
variables.
- Abstract(参考訳): マルコフ決定プロセス(MDP)では、観測不能な共同設立者がデータ生成プロセスに影響を与え、古典的非政治評価(OPE)推定者がターゲットポリシーの真の価値関数を特定できない可能性がある。
本稿では,観測可能な機器変数を持つMDPにおけるOPEの統計特性について検討する。
具体的には, インストゥルメンタル変数に基づく2段階推定器を提案し, 線形構造を持つmdpの統計的性質を定式化する。
非漸近解析では、$n$がサンプル数であるような$\mathcal{O}(n^{-1/2})$-error境界が証明される。
漸近解析では、2段階推定器は漸近的に正常であり、典型的には$n^{1/2}$である。
我々の知る限りでは、楽器変数を用いた線形MDPの2段階推定器の統計結果を示すのは初めてである。
関連論文リスト
- Robust Estimation for Kernel Exponential Families with Smoothed Total Variation Distances [2.317910166616341]
統計的推測では、標本は独立であり、確率分布から同一に分布していると一般的に仮定する。
本稿では,GAN-like 推定器の一般統計モデルへの応用について検討する。
論文 参考訳(メタデータ) (2024-10-28T05:50:47Z) - Statistical Agnostic Regression: a machine learning method to validate regression models [0.0]
本稿では,機械学習に基づく線形回帰モデルの統計的意義を評価するために,統計的回帰(Agnostic Regression, SAR)を導入する。
我々は、説明的(機能)変数と反応(ラベル)変数の間の集団における線形関係の存在を結論付けるために、少なくとも1-eta$の確率で十分な証拠が存在することを保証するしきい値を定義する。
論文 参考訳(メタデータ) (2024-02-23T09:19:26Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Policy evaluation from a single path: Multi-step methods, mixing and
mis-specification [45.88067550131531]
無限水平$gamma$-discounted Markov rewardプロセスの値関数の非パラメトリック推定について検討した。
カーネルベースの多段階時間差推定の一般的なファミリーに対して、漸近的でない保証を提供する。
論文 参考訳(メタデータ) (2022-11-07T23:15:25Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - Off-policy estimation of linear functionals: Non-asymptotic theory for
semi-parametric efficiency [59.48096489854697]
観測データに基づいて線形汎関数を推定する問題は、因果推論と包帯文献の両方において標準的である。
このような手順の平均二乗誤差に対して非漸近上界を証明した。
非漸近的局所ミニマックス下限をマッチングすることにより、有限標本のインスタンス依存最適性を確立する。
論文 参考訳(メタデータ) (2022-09-26T23:50:55Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - A Statistical Decision-Theoretical Perspective on the Two-Stage Approach
to Parameter Estimation [7.599399338954307]
2段階(TS)アプローチは、信頼できるパラメトリック推定を得るために適用することができる。
独立したサンプルと同一のサンプルのモデルにTSアプローチを適用する方法を示す。
論文 参考訳(メタデータ) (2022-03-31T18:19:47Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Weighted Lasso Estimates for Sparse Logistic Regression: Non-asymptotic
Properties with Measurement Error [5.5233023574863624]
2種類の重み付きラスソ推定法が$ell_1$-penalized logistic regressionに対して提案されている。
提案手法の有限標本挙動は,非漸近的オラクル不等式によって示される。
シミュレーションデータの重み付けされた推定値と比較し,実データ解析にこれらの手法を適用した。
論文 参考訳(メタデータ) (2020-06-11T00:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。