論文の概要: Automatic Double Reinforcement Learning in Semiparametric Markov Decision Processes with Applications to Long-Term Causal Inference
- arxiv url: http://arxiv.org/abs/2501.06926v1
- Date: Sun, 12 Jan 2025 20:35:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 19:20:13.368741
- Title: Automatic Double Reinforcement Learning in Semiparametric Markov Decision Processes with Applications to Long-Term Causal Inference
- Title(参考訳): 半パラメトリックマルコフ決定過程における二重強化自動学習と長期因果推論への応用
- Authors: Lars van der Laan, David Hubbard, Allen Tran, Nathan Kallus, Aurélien Bibaut,
- Abstract要約: 時間不変マルコフ決定過程(MDPs)における$Q$関数の線形汎関数の効率的な推論について検討する。
これらの制限は重なり合う要求を減らし、効率のバウンドを下げ、より正確な見積もりをもたらす。
特殊ケースとして, 等速適応適応型$Q$-iteration(MDPの新しいキャリブレーションアルゴリズム)を用いた適応型デバイアスドプラグイン推定法を提案する。
- 参考スコア(独自算出の注目度): 33.14076284663493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Double reinforcement learning (DRL) enables statistically efficient inference on the value of a policy in a nonparametric Markov Decision Process (MDP) given trajectories generated by another policy. However, this approach necessarily requires stringent overlap between the state distributions, which is often violated in practice. To relax this requirement and extend DRL, we study efficient inference on linear functionals of the $Q$-function (of which policy value is a special case) in infinite-horizon, time-invariant MDPs under semiparametric restrictions on the $Q$-function. These restrictions can reduce the overlap requirement and lower the efficiency bound, yielding more precise estimates. As an important example, we study the evaluation of long-term value under domain adaptation, given a few short trajectories from the new domain and restrictions on the difference between the domains. This can be used for long-term causal inference. Our method combines flexible estimates of the $Q$-function and the Riesz representer of the functional of interest (e.g., the stationary state density ratio for policy value) and is automatic in that we do not need to know the form of the latter - only the functional we care about. To address potential model misspecification bias, we extend the adaptive debiased machine learning (ADML) framework of \citet{van2023adaptive} to construct nonparametrically valid and superefficient estimators that adapt to the functional form of the $Q$-function. As a special case, we propose a novel adaptive debiased plug-in estimator that uses isotonic-calibrated fitted $Q$-iteration - a new calibration algorithm for MDPs - to circumvent the computational challenges of estimating debiasing nuisances from min-max objectives.
- Abstract(参考訳): 二重強化学習(DRL)は、他のポリシーによって生成された軌道が与えられた非パラメトリックマルコフ決定過程(MDP)において、ポリシーの価値を統計的に効率的に推測することを可能にする。
しかし、このアプローチでは状態分布間の厳密な重複が必然的に必要であり、実際にはしばしば違反される。
この要求を緩和し、DRLを拡張するために、$Q$-函数上の半パラメトリック制限の下で無限水平時間不変の MDP における$Q$-函数の線型関数(ポリシー値が特別な場合である)の効率的な推論について検討する。
これらの制限は重なり合う要求を減らし、効率のバウンドを下げ、より正確な見積もりをもたらす。
重要な例として、新しいドメインからの短い軌跡とドメイン間の差異の制限を考慮し、ドメイン適応の下での長期的価値の評価について検討する。
これは長期の因果推論に使用できる。
我々の手法は、$Q$関数の柔軟な推定と利子関数のリース表現器(例えば、ポリシー値の定常状態密度比)を組み合わせることで、後者の形式を知る必要がなくなる。
潜在的なモデルの非特異性バイアスに対処するため, 適応型脱バイアス機械学習(ADML)フレームワークを拡張して, Q$関数の関数形式に適応する非パラメトリックで高効率な推定器を構築する。
特別の場合として, 等速キャリブレーションを施した$Q$-iteration(MDPの新しい校正アルゴリズム)を用いた適応型デバイアスドプラグイン推定器を提案する。
関連論文リスト
- Automatic Debiased Machine Learning for Smooth Functionals of Nonparametric M-Estimands [34.30497962430375]
無限次元M-推定関数のスムーズな関数に対する推論を行うために,自動脱バイアス機械学習(autoDML)の統一フレームワークを提案する。
本稿では,1ステップ推定に基づく3つの自動DML推定器,目標最小損失推定,およびシーブ方法を紹介する。
データ駆動型モデル選択では、M-エスティマンドの滑らかな関数に対するモデル近似誤差の新たな分解を導出する。
論文 参考訳(メタデータ) (2025-01-21T03:50:51Z) - Semiparametric inference for impulse response functions using double/debiased machine learning [49.1574468325115]
本稿では,インパルス応答関数(IRF)に対する機械学習推定手法を提案する。
提案した推定器は、処理と結果変数の完全な非パラメトリック関係に依存することができ、柔軟な機械学習アプローチを用いてIRFを推定することができる。
論文 参考訳(メタデータ) (2024-11-15T07:42:02Z) - Automatic doubly robust inference for linear functionals via calibrated debiased machine learning [0.9694940903078658]
本稿では2つの頑健な推論のためのバイアス付き機械学習推定器を提案する。
C-DML推定器は、結果回帰または線形汎函数のリース表現器が十分に推定されたときに線形性を維持する。
我々の理論的および実証的な結果は、ニュアンス関数の不一致または遅い推定によるバイアスを軽減するためにC-DMLの使用を支持する。
論文 参考訳(メタデータ) (2024-11-05T03:32:30Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - FAStEN: An Efficient Adaptive Method for Feature Selection and Estimation in High-Dimensional Functional Regressions [7.674715791336311]
本稿では,スパース関数オン・ファンクション回帰問題において特徴選択を行うための,新しい,柔軟な,超効率的なアプローチを提案する。
我々はそれをスカラー・オン・ファンクション・フレームワークに拡張する方法を示す。
AOMIC PIOP1による脳MRIデータへの応用について述べる。
論文 参考訳(メタデータ) (2023-03-26T19:41:17Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Learning Stable Nonparametric Dynamical Systems with Gaussian Process
Regression [9.126353101382607]
データからガウス過程回帰に基づいて非パラメトリックリアプノフ関数を学習する。
非パラメトリック制御Lyapunov関数に基づく名目モデルの安定化は、トレーニングサンプルにおける名目モデルの挙動を変化させるものではないことを証明した。
論文 参考訳(メタデータ) (2020-06-14T11:17:17Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。