論文の概要: Learning Decision Policies with Instrumental Variables through Double Machine Learning
- arxiv url: http://arxiv.org/abs/2405.08498v2
- Date: Wed, 15 May 2024 12:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 12:36:16.324579
- Title: Learning Decision Policies with Instrumental Variables through Double Machine Learning
- Title(参考訳): ダブル機械学習による器用変数による意思決定ポリシーの学習
- Authors: Daqian Shao, Ashkan Soleymani, Francesco Quinzan, Marta Kwiatkowska,
- Abstract要約: データリッチな設定における意思決定ポリシーの学習における一般的な問題は、オフラインデータセットにおける急激な相関である。
2段階IV回帰のバイアスを低減する非線形IV回帰法であるDML-IVを提案する。
IV回帰ベンチマークでは、最先端のIV回帰法よりも優れており、楽器の存在下で高い性能のポリシーを学ぶ。
- 参考スコア(独自算出の注目度): 16.842233444365764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common issue in learning decision-making policies in data-rich settings is spurious correlations in the offline dataset, which can be caused by hidden confounders. Instrumental variable (IV) regression, which utilises a key unconfounded variable known as the instrument, is a standard technique for learning causal relationships between confounded action, outcome, and context variables. Most recent IV regression algorithms use a two-stage approach, where a deep neural network (DNN) estimator learnt in the first stage is directly plugged into the second stage, in which another DNN is used to estimate the causal effect. Naively plugging the estimator can cause heavy bias in the second stage, especially when regularisation bias is present in the first stage estimator. We propose DML-IV, a non-linear IV regression method that reduces the bias in two-stage IV regressions and effectively learns high-performing policies. We derive a novel learning objective to reduce bias and design the DML-IV algorithm following the double/debiased machine learning (DML) framework. The learnt DML-IV estimator has strong convergence rate and $O(N^{-1/2})$ suboptimality guarantees that match those when the dataset is unconfounded. DML-IV outperforms state-of-the-art IV regression methods on IV regression benchmarks and learns high-performing policies in the presence of instruments.
- Abstract(参考訳): データリッチな設定で意思決定ポリシーを学習する際の一般的な問題は、オフラインデータセットの急激な相関であり、これは隠れた共同設立者によって引き起こされる可能性がある。
インスツルメンタル変数(IV)回帰(英: Instrumental variable (IV) regression)は、インスツルメンタル変数として知られる重要な未確立変数を活用するもので、コンストラクターアクション、結果、コンテキスト変数間の因果関係を学習するための標準手法である。
最近のIV回帰アルゴリズムでは、第1段階で学習したディープニューラルネットワーク(DNN)推定器が第2段階で直接接続され、別のDNNを使用して因果効果を推定する2段階のアプローチを採用している。
特に第1段推定器に正規化バイアスが存在する場合、特に第2段推定器をネーリープラグすると大きなバイアスが発生する。
DML-IVは,2段階IV回帰のバイアスを低減する非線形IV回帰法であり,高い性能ポリシーを効果的に学習する。
バイアスを低減し、DML(Double/debiased Machine Learning)フレームワークに従ってDML-IVアルゴリズムを設計する新たな学習目標を導出する。
学習したDML-IV推定器は強い収束率を持ち、$O(N^{-1/2})$サブ最適性はデータセットが未確立のときと一致することを保証している。
DML-IVは、IV回帰ベンチマークで最先端のIV回帰法を上回り、機器の存在下で高い性能のポリシーを学ぶ。
関連論文リスト
- Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Regularized DeepIV with Model Selection [72.17508967124081]
正規化DeepIV(RDIV)回帰は最小ノルムIV解に収束することができる。
我々の手法は現在の最先端の収束率と一致している。
論文 参考訳(メタデータ) (2024-03-07T05:38:56Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Confounder Balancing for Instrumental Variable Regression with Latent
Variable [29.288045682505615]
本稿では,未測定の共同設立者からの共謀効果と,IV回帰における観察された共同設立者の不均衡について検討する。
我々は、計測されていない共同設立者からバイアスを取り除き、観察された共同設立者の不均衡を取り除くために、共同設立者バランスIV回帰(CB-IV)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-18T03:13:53Z) - On Instrumental Variable Regression for Deep Offline Policy Evaluation [37.05492059049681]
平均2乗ベルマン誤差を最小化することで状態-作用値(Q-関数)を推定する一般的な強化学習戦略が,共起を伴う回帰問題を引き起こすことを示す。
我々は、Deep Q-NetworksとFitted Q EvaluationのターゲットQ-ネットワークの修正が、この欠点を克服する方法を提供する理由を説明します。
本稿では、オフライン政策評価の文脈において、最近のIV手法を幅広く分析し、比較する。
論文 参考訳(メタデータ) (2021-05-21T06:22:34Z) - Instrumental Variable Value Iteration for Causal Offline Reinforcement
Learning [94.70124304098469]
オフライン強化学習(RL)では、事前収集された観測データのみから最適なポリシーを学習する。
我々は、遷移力学が加法非線形関数形式を認める連結マルコフ決定過程について研究する。
本稿では,CMRの一次二重改質に基づくIV-aided Value Iteration (IVVI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-19T13:01:40Z) - Learning Deep Features in Instrumental Variable Regression [42.085253974990046]
IVレグレッションでは、学習は2段階に進み、ステージ1は、機器から治療への線形回帰を行い、ステージ2は、機器に条件付きで、処理から結果への線形回帰を行う。
本稿では, 楽器, 治療, 結果の関係が非線形である場合に対処する手法として, DFIV(Deep Feature instrumental variable regression)を提案する。
論文 参考訳(メタデータ) (2020-10-14T15:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。