Fugu-MT 論文翻訳(概要): Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference

論文の概要: Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference

arxiv url: http://arxiv.org/abs/2501.06926v3
Date: Mon, 30 Jun 2025 16:30:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 15:08:38.850763
Title: Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference
Title（参考訳）: 半パラメトリック二重強化学習と長期因果推論への応用
Authors: Lars van der Laan, David Hubbard, Allen Tran, Nathan Kallus, Aurélien Bibaut,
Abstract要約: 短期的なデータから長期的な因果効果を推定しなければならない。 MDPはこのような長期的ダイナミクスを捉えるための自然なフレームワークを提供する。非パラメトリックな実装は時間間重なりの強い仮定を必要とする。アイソトニックベルマンキャリブレーションに基づく新しいプラグイン推定器を提案する。
参考スコア（独自算出の注目度）: 33.14076284663493
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long-term causal effects often must be estimated from short-term data due to limited follow-up in healthcare, economics, and online platforms. Markov Decision Processes (MDPs) provide a natural framework for capturing such long-term dynamics through sequences of states, actions, and rewards. Double Reinforcement Learning (DRL) enables efficient inference on policy values in MDPs, but nonparametric implementations require strong intertemporal overlap assumptions and often exhibit high variance and instability. We propose a semiparametric extension of DRL for efficient inference on linear functionals of the Q-function--such as policy values--in infinite-horizon, time-homogeneous MDPs. By imposing structural restrictions on the Q-function, our approach relaxes the strong overlap conditions required by nonparametric methods and improves statistical efficiency. Under model misspecification, our estimators target the functional of the best-approximating Q-function, with only second-order bias. We provide conditions for valid inference using sieve methods and data-driven model selection. A central challenge in DRL is the estimation of nuisance functions, such as density ratios, which often involve difficult minimax optimization. To address this, we introduce a novel plug-in estimator based on isotonic Bellman calibration, which combines fitted Q-iteration with an isotonic regression adjustment. The estimator is debiased without requiring estimation of additional nuisance functions and reduces high-dimensional overlap assumptions to a one-dimensional condition. Bellman calibration extends isotonic calibration--widely used in prediction and classification--to the MDP setting and may be of independent interest.
Abstract（参考訳）: 長期的な因果効果は、医療、経済学、オンラインプラットフォームにおける限られたフォローアップのため、短期的なデータから推定されなければならないことが多い。マルコフ決定プロセス(MDP)は、状態、行動、報酬のシーケンスを通じて、このような長期的なダイナミクスをキャプチャするための自然なフレームワークを提供する。二重強化学習(Double Reinforcement Learning、DRL)は、MDPにおけるポリシー値の効率的な推論を可能にするが、非パラメトリック実装は時間間重なりの強い仮定を必要とし、しばしば高い分散と不安定を示す。本稿では,Q関数の線形汎関数を効率的に推定するためのDRLの半パラメトリック拡張法を提案する。 Q-関数の構造的制約を課すことで、非パラメトリック法で要求される強い重複条件を緩和し、統計的効率を向上させる。モデル的不特定性の下では, 最適近似Q-関数の関数を推定し, 2次偏差のみを推定する。本稿では,Sieve法とデータ駆動モデル選択を用いた有効推論条件を提案する。 DRLにおける中心的な課題は、しばしば極小最適化が難しい密度比のようなニュアンス関数を推定することである。そこで本研究では,入出力Q値と等速回帰調整を組み合わせた等速ベルマンキャリブレーションに基づく新しいプラグイン推定器を提案する。推定器は、追加のニュアンス関数を見積もることなく偏りを無くし、高次元の重なり仮定を1次元の状態に還元する。ベルマンキャリブレーションは、予測や分類に広く使用される等速キャリブレーションを、MDP設定に拡張し、独立した関心を持つ可能性がある。

関連論文リスト

Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。 GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-16T02:24:21Z)
Principled Input-Output-Conditioned Post-Hoc Uncertainty Estimation for Regression Networks [1.4671424999873808]
不確実性は安全性に敏感なアプリケーションでは重要であるが、予測性能に悪影響を及ぼすため、市販のニューラルネットワークから排除されることが多い。本稿では,従来の入力と凍結モデルの両方に補助モデルを適用することにより,回帰タスクにおけるポストホック不確実性推定のための理論的基盤となるフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-01T09:13:27Z)
Debiased Ill-Posed Regression [8.495265117285223]
本稿では,予測誤差の修正による影響関数に基づく偏り推定手法を提案する。提案した推定器は、関連するニュアンス関数に対して二階偏差を有する。
論文参考訳（メタデータ） (2025-05-27T06:47:33Z)
Automatic Debiased Machine Learning for Smooth Functionals of Nonparametric M-Estimands [34.30497962430375]
無限次元M-推定関数のスムーズな関数に対する推論を行うために,自動脱バイアス機械学習(autoDML)の統一フレームワークを提案する。本稿では,1ステップ推定に基づく3つの自動DML推定器,目標最小損失推定,およびシーブ方法を紹介する。データ駆動型モデル選択では、M-エスティマンドの滑らかな関数に対するモデル近似誤差の新たな分解を導出する。
論文参考訳（メタデータ） (2025-01-21T03:50:51Z)
Semiparametric inference for impulse response functions using double/debiased machine learning [49.1574468325115]
本稿では,インパルス応答関数(IRF)に対する機械学習推定手法を提案する。提案した推定器は、処理と結果変数の完全な非パラメトリック関係に依存することができ、柔軟な機械学習アプローチを用いてIRFを推定することができる。
論文参考訳（メタデータ） (2024-11-15T07:42:02Z)
Automatic doubly robust inference for linear functionals via calibrated debiased machine learning [0.9694940903078658]
本稿では2つの頑健な推論のためのバイアス付き機械学習推定器を提案する。 C-DML推定器は、結果回帰または線形汎函数のリース表現器が十分に推定されたときに線形性を維持する。我々の理論的および実証的な結果は、ニュアンス関数の不一致または遅い推定によるバイアスを軽減するためにC-DMLの使用を支持する。
論文参考訳（メタデータ） (2024-11-05T03:32:30Z)
Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文参考訳（メタデータ） (2024-06-05T13:36:38Z)
Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文参考訳（メタデータ） (2024-03-29T18:11:49Z)
Online non-parametric likelihood-ratio estimation by Pearson-divergence functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文参考訳（メタデータ） (2023-11-03T13:20:11Z)
FAStEN: An Efficient Adaptive Method for Feature Selection and Estimation in High-Dimensional Functional Regressions [7.674715791336311]
本稿では,スパース関数オン・ファンクション回帰問題において特徴選択を行うための,新しい,柔軟な,超効率的なアプローチを提案する。我々はそれをスカラー・オン・ファンクション・フレームワークに拡張する方法を示す。 AOMIC PIOP1による脳MRIデータへの応用について述べる。
論文参考訳（メタデータ） (2023-03-26T19:41:17Z)
Kernel-based off-policy estimation without overlap: Instance optimality beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文参考訳（メタデータ） (2023-01-16T02:57:37Z)
Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文参考訳（メタデータ） (2022-12-12T18:58:59Z)
GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP, and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文参考訳（メタデータ） (2022-11-03T16:42:40Z)
Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文参考訳（メタデータ） (2022-08-29T16:16:22Z)
Solving Multistage Stochastic Linear Programming via Regularized Linear Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。 LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文参考訳（メタデータ） (2021-10-07T02:36:14Z)
Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文参考訳（メタデータ） (2021-08-16T12:20:47Z)
Learning MDPs from Features: Predict-Then-Optimize for Sequential Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。 2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文参考訳（メタデータ） (2021-06-06T23:53:31Z)
Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文参考訳（メタデータ） (2020-09-21T09:11:36Z)
Fundamental Limits of Ridge-Regularized Empirical Risk Minimization in High Dimensions [41.7567932118769]
経験的リスク最小化アルゴリズムは、様々な推定や予測タスクで広く利用されている。本稿では,コンベックスEMMの統計的精度に関する基礎的限界を推論のために初めて特徴づける。
論文参考訳（メタデータ） (2020-06-16T04:27:38Z)
Learning Stable Nonparametric Dynamical Systems with Gaussian Process Regression [9.126353101382607]
データからガウス過程回帰に基づいて非パラメトリックリアプノフ関数を学習する。非パラメトリック制御Lyapunov関数に基づく名目モデルの安定化は、トレーニングサンプルにおける名目モデルの挙動を変化させるものではないことを証明した。
論文参考訳（メタデータ） (2020-06-14T11:17:17Z)
Machine learning for causal inference: on the use of cross-fit estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文参考訳（メタデータ） (2020-04-21T23:09:55Z)
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文参考訳（メタデータ） (2020-02-21T19:20:57Z)
Localized Debiased Machine Learning: Efficient Inference on Quantile Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。 Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文参考訳（メタデータ） (2019-12-30T14:42:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。