論文の概要: Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference
- arxiv url: http://arxiv.org/abs/2501.06926v3
- Date: Mon, 30 Jun 2025 16:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:38.850763
- Title: Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference
- Title(参考訳): 半パラメトリック二重強化学習と長期因果推論への応用
- Authors: Lars van der Laan, David Hubbard, Allen Tran, Nathan Kallus, Aurélien Bibaut,
- Abstract要約: 短期的なデータから長期的な因果効果を推定しなければならない。
MDPはこのような長期的ダイナミクスを捉えるための自然なフレームワークを提供する。
非パラメトリックな実装は時間間重なりの強い仮定を必要とする。
アイソトニックベルマンキャリブレーションに基づく新しいプラグイン推定器を提案する。
- 参考スコア(独自算出の注目度): 33.14076284663493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-term causal effects often must be estimated from short-term data due to limited follow-up in healthcare, economics, and online platforms. Markov Decision Processes (MDPs) provide a natural framework for capturing such long-term dynamics through sequences of states, actions, and rewards. Double Reinforcement Learning (DRL) enables efficient inference on policy values in MDPs, but nonparametric implementations require strong intertemporal overlap assumptions and often exhibit high variance and instability. We propose a semiparametric extension of DRL for efficient inference on linear functionals of the Q-function--such as policy values--in infinite-horizon, time-homogeneous MDPs. By imposing structural restrictions on the Q-function, our approach relaxes the strong overlap conditions required by nonparametric methods and improves statistical efficiency. Under model misspecification, our estimators target the functional of the best-approximating Q-function, with only second-order bias. We provide conditions for valid inference using sieve methods and data-driven model selection. A central challenge in DRL is the estimation of nuisance functions, such as density ratios, which often involve difficult minimax optimization. To address this, we introduce a novel plug-in estimator based on isotonic Bellman calibration, which combines fitted Q-iteration with an isotonic regression adjustment. The estimator is debiased without requiring estimation of additional nuisance functions and reduces high-dimensional overlap assumptions to a one-dimensional condition. Bellman calibration extends isotonic calibration--widely used in prediction and classification--to the MDP setting and may be of independent interest.
- Abstract(参考訳): 長期的な因果効果は、医療、経済学、オンラインプラットフォームにおける限られたフォローアップのため、短期的なデータから推定されなければならないことが多い。
マルコフ決定プロセス(MDP)は、状態、行動、報酬のシーケンスを通じて、このような長期的なダイナミクスをキャプチャするための自然なフレームワークを提供する。
二重強化学習(Double Reinforcement Learning、DRL)は、MDPにおけるポリシー値の効率的な推論を可能にするが、非パラメトリック実装は時間間重なりの強い仮定を必要とし、しばしば高い分散と不安定を示す。
本稿では,Q関数の線形汎関数を効率的に推定するためのDRLの半パラメトリック拡張法を提案する。
Q-関数の構造的制約を課すことで、非パラメトリック法で要求される強い重複条件を緩和し、統計的効率を向上させる。
モデル的不特定性の下では, 最適近似Q-関数の関数を推定し, 2次偏差のみを推定する。
本稿では,Sieve法とデータ駆動モデル選択を用いた有効推論条件を提案する。
DRLにおける中心的な課題は、しばしば極小最適化が難しい密度比のようなニュアンス関数を推定することである。
そこで本研究では,入出力Q値と等速回帰調整を組み合わせた等速ベルマンキャリブレーションに基づく新しいプラグイン推定器を提案する。
推定器は、追加のニュアンス関数を見積もることなく偏りを無くし、高次元の重なり仮定を1次元の状態に還元する。
ベルマンキャリブレーションは、予測や分類に広く使用される等速キャリブレーションを、MDP設定に拡張し、独立した関心を持つ可能性がある。
関連論文リスト
- Automatic Debiased Machine Learning for Smooth Functionals of Nonparametric M-Estimands [34.30497962430375]
無限次元M-推定関数のスムーズな関数に対する推論を行うために,自動脱バイアス機械学習(autoDML)の統一フレームワークを提案する。
本稿では,1ステップ推定に基づく3つの自動DML推定器,目標最小損失推定,およびシーブ方法を紹介する。
データ駆動型モデル選択では、M-エスティマンドの滑らかな関数に対するモデル近似誤差の新たな分解を導出する。
論文 参考訳(メタデータ) (2025-01-21T03:50:51Z) - Semiparametric inference for impulse response functions using double/debiased machine learning [49.1574468325115]
本稿では,インパルス応答関数(IRF)に対する機械学習推定手法を提案する。
提案した推定器は、処理と結果変数の完全な非パラメトリック関係に依存することができ、柔軟な機械学習アプローチを用いてIRFを推定することができる。
論文 参考訳(メタデータ) (2024-11-15T07:42:02Z) - Automatic doubly robust inference for linear functionals via calibrated debiased machine learning [0.9694940903078658]
本稿では2つの頑健な推論のためのバイアス付き機械学習推定器を提案する。
C-DML推定器は、結果回帰または線形汎函数のリース表現器が十分に推定されたときに線形性を維持する。
我々の理論的および実証的な結果は、ニュアンス関数の不一致または遅い推定によるバイアスを軽減するためにC-DMLの使用を支持する。
論文 参考訳(メタデータ) (2024-11-05T03:32:30Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - FAStEN: An Efficient Adaptive Method for Feature Selection and Estimation in High-Dimensional Functional Regressions [7.674715791336311]
本稿では,スパース関数オン・ファンクション回帰問題において特徴選択を行うための,新しい,柔軟な,超効率的なアプローチを提案する。
我々はそれをスカラー・オン・ファンクション・フレームワークに拡張する方法を示す。
AOMIC PIOP1による脳MRIデータへの応用について述べる。
論文 参考訳(メタデータ) (2023-03-26T19:41:17Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Learning Stable Nonparametric Dynamical Systems with Gaussian Process
Regression [9.126353101382607]
データからガウス過程回帰に基づいて非パラメトリックリアプノフ関数を学習する。
非パラメトリック制御Lyapunov関数に基づく名目モデルの安定化は、トレーニングサンプルにおける名目モデルの挙動を変化させるものではないことを証明した。
論文 参考訳(メタデータ) (2020-06-14T11:17:17Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。