Fugu-MT 論文翻訳(概要): Automatic Double Reinforcement Learning in Semiparametric Markov Decision Processes with Applications to Long-Term Causal Inference

論文の概要: Automatic Double Reinforcement Learning in Semiparametric Markov Decision Processes with Applications to Long-Term Causal Inference

arxiv url: http://arxiv.org/abs/2501.06926v1
Date: Sun, 12 Jan 2025 20:35:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 19:20:13.368741
Title: Automatic Double Reinforcement Learning in Semiparametric Markov Decision Processes with Applications to Long-Term Causal Inference
Title（参考訳）: 半パラメトリックマルコフ決定過程における二重強化自動学習と長期因果推論への応用
Authors: Lars van der Laan, David Hubbard, Allen Tran, Nathan Kallus, Aurélien Bibaut,
Abstract要約: 時間不変マルコフ決定過程(MDPs)における$Q$関数の線形汎関数の効率的な推論について検討する。これらの制限は重なり合う要求を減らし、効率のバウンドを下げ、より正確な見積もりをもたらす。特殊ケースとして, 等速適応適応型$Q$-iteration(MDPの新しいキャリブレーションアルゴリズム)を用いた適応型デバイアスドプラグイン推定法を提案する。
参考スコア（独自算出の注目度）: 33.14076284663493
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Double reinforcement learning (DRL) enables statistically efficient inference on the value of a policy in a nonparametric Markov Decision Process (MDP) given trajectories generated by another policy. However, this approach necessarily requires stringent overlap between the state distributions, which is often violated in practice. To relax this requirement and extend DRL, we study efficient inference on linear functionals of the $Q$-function (of which policy value is a special case) in infinite-horizon, time-invariant MDPs under semiparametric restrictions on the $Q$-function. These restrictions can reduce the overlap requirement and lower the efficiency bound, yielding more precise estimates. As an important example, we study the evaluation of long-term value under domain adaptation, given a few short trajectories from the new domain and restrictions on the difference between the domains. This can be used for long-term causal inference. Our method combines flexible estimates of the $Q$-function and the Riesz representer of the functional of interest (e.g., the stationary state density ratio for policy value) and is automatic in that we do not need to know the form of the latter - only the functional we care about. To address potential model misspecification bias, we extend the adaptive debiased machine learning (ADML) framework of \citet{van2023adaptive} to construct nonparametrically valid and superefficient estimators that adapt to the functional form of the $Q$-function. As a special case, we propose a novel adaptive debiased plug-in estimator that uses isotonic-calibrated fitted $Q$-iteration - a new calibration algorithm for MDPs - to circumvent the computational challenges of estimating debiasing nuisances from min-max objectives.
Abstract（参考訳）: 二重強化学習(DRL)は、他のポリシーによって生成された軌道が与えられた非パラメトリックマルコフ決定過程(MDP)において、ポリシーの価値を統計的に効率的に推測することを可能にする。しかし、このアプローチでは状態分布間の厳密な重複が必然的に必要であり、実際にはしばしば違反される。この要求を緩和し、DRLを拡張するために、$Q$-函数上の半パラメトリック制限の下で無限水平時間不変の MDP における$Q$-函数の線型関数(ポリシー値が特別な場合である)の効率的な推論について検討する。これらの制限は重なり合う要求を減らし、効率のバウンドを下げ、より正確な見積もりをもたらす。重要な例として、新しいドメインからの短い軌跡とドメイン間の差異の制限を考慮し、ドメイン適応の下での長期的価値の評価について検討する。これは長期の因果推論に使用できる。我々の手法は、$Q$関数の柔軟な推定と利子関数のリース表現器(例えば、ポリシー値の定常状態密度比)を組み合わせることで、後者の形式を知る必要がなくなる。潜在的なモデルの非特異性バイアスに対処するため, 適応型脱バイアス機械学習(ADML)フレームワークを拡張して, Q$関数の関数形式に適応する非パラメトリックで高効率な推定器を構築する。特別の場合として, 等速キャリブレーションを施した$Q$-iteration(MDPの新しい校正アルゴリズム)を用いた適応型デバイアスドプラグイン推定器を提案する。

関連論文リスト

Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。 GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-16T02:24:21Z)
Principled Input-Output-Conditioned Post-Hoc Uncertainty Estimation for Regression Networks [1.4671424999873808]
不確実性は安全性に敏感なアプリケーションでは重要であるが、予測性能に悪影響を及ぼすため、市販のニューラルネットワークから排除されることが多い。本稿では,従来の入力と凍結モデルの両方に補助モデルを適用することにより,回帰タスクにおけるポストホック不確実性推定のための理論的基盤となるフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-01T09:13:27Z)
Debiased Ill-Posed Regression [8.495265117285223]
本稿では,予測誤差の修正による影響関数に基づく偏り推定手法を提案する。提案した推定器は、関連するニュアンス関数に対して二階偏差を有する。
論文参考訳（メタデータ） (2025-05-27T06:47:33Z)
Automatic Debiased Machine Learning for Smooth Functionals of Nonparametric M-Estimands [34.30497962430375]
無限次元M-推定関数のスムーズな関数に対する推論を行うために,自動脱バイアス機械学習(autoDML)の統一フレームワークを提案する。本稿では,1ステップ推定に基づく3つの自動DML推定器,目標最小損失推定,およびシーブ方法を紹介する。データ駆動型モデル選択では、M-エスティマンドの滑らかな関数に対するモデル近似誤差の新たな分解を導出する。
論文参考訳（メタデータ） (2025-01-21T03:50:51Z)
Semiparametric inference for impulse response functions using double/debiased machine learning [49.1574468325115]
本稿では,インパルス応答関数(IRF)に対する機械学習推定手法を提案する。提案した推定器は、処理と結果変数の完全な非パラメトリック関係に依存することができ、柔軟な機械学習アプローチを用いてIRFを推定することができる。
論文参考訳（メタデータ） (2024-11-15T07:42:02Z)
Automatic doubly robust inference for linear functionals via calibrated debiased machine learning [0.9694940903078658]
本稿では2つの頑健な推論のためのバイアス付き機械学習推定器を提案する。 C-DML推定器は、結果回帰または線形汎函数のリース表現器が十分に推定されたときに線形性を維持する。我々の理論的および実証的な結果は、ニュアンス関数の不一致または遅い推定によるバイアスを軽減するためにC-DMLの使用を支持する。
論文参考訳（メタデータ） (2024-11-05T03:32:30Z)
Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文参考訳（メタデータ） (2024-06-05T13:36:38Z)
Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文参考訳（メタデータ） (2024-03-29T18:11:49Z)
Online non-parametric likelihood-ratio estimation by Pearson-divergence functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文参考訳（メタデータ） (2023-11-03T13:20:11Z)
FAStEN: An Efficient Adaptive Method for Feature Selection and Estimation in High-Dimensional Functional Regressions [7.674715791336311]
本稿では,スパース関数オン・ファンクション回帰問題において特徴選択を行うための,新しい,柔軟な,超効率的なアプローチを提案する。我々はそれをスカラー・オン・ファンクション・フレームワークに拡張する方法を示す。 AOMIC PIOP1による脳MRIデータへの応用について述べる。
論文参考訳（メタデータ） (2023-03-26T19:41:17Z)
Kernel-based off-policy estimation without overlap: Instance optimality beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文参考訳（メタデータ） (2023-01-16T02:57:37Z)
Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文参考訳（メタデータ） (2022-12-12T18:58:59Z)
GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP, and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文参考訳（メタデータ） (2022-11-03T16:42:40Z)
Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文参考訳（メタデータ） (2022-08-29T16:16:22Z)
Solving Multistage Stochastic Linear Programming via Regularized Linear Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。 LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文参考訳（メタデータ） (2021-10-07T02:36:14Z)
Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文参考訳（メタデータ） (2021-08-16T12:20:47Z)
Learning MDPs from Features: Predict-Then-Optimize for Sequential Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。 2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文参考訳（メタデータ） (2021-06-06T23:53:31Z)
Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文参考訳（メタデータ） (2020-09-21T09:11:36Z)
Fundamental Limits of Ridge-Regularized Empirical Risk Minimization in High Dimensions [41.7567932118769]
経験的リスク最小化アルゴリズムは、様々な推定や予測タスクで広く利用されている。本稿では,コンベックスEMMの統計的精度に関する基礎的限界を推論のために初めて特徴づける。
論文参考訳（メタデータ） (2020-06-16T04:27:38Z)
Learning Stable Nonparametric Dynamical Systems with Gaussian Process Regression [9.126353101382607]
データからガウス過程回帰に基づいて非パラメトリックリアプノフ関数を学習する。非パラメトリック制御Lyapunov関数に基づく名目モデルの安定化は、トレーニングサンプルにおける名目モデルの挙動を変化させるものではないことを証明した。
論文参考訳（メタデータ） (2020-06-14T11:17:17Z)
Machine learning for causal inference: on the use of cross-fit estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文参考訳（メタデータ） (2020-04-21T23:09:55Z)
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文参考訳（メタデータ） (2020-02-21T19:20:57Z)
Localized Debiased Machine Learning: Efficient Inference on Quantile Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。 Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文参考訳（メタデータ） (2019-12-30T14:42:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。