論文の概要: Post-Episodic Reinforcement Learning Inference
- arxiv url: http://arxiv.org/abs/2302.08854v1
- Date: Fri, 17 Feb 2023 12:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 14:53:14.498408
- Title: Post-Episodic Reinforcement Learning Inference
- Title(参考訳): ポスト・エピソジック強化学習推論
- Authors: Vasilis Syrgkanis, Ruohan Zhan
- Abstract要約: エピソード強化学習(RL)から収集したデータによる推定と推定について検討する。
そこで本稿では, エピソード変動推定分散を安定化させるため, 慎重に設計した解を用いた再重み付きZ推定手法を提案する。
主な応用は、動的処理効果推定と動的オフポリシー評価である。
- 参考スコア(独自算出の注目度): 24.290665221707652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider estimation and inference with data collected from episodic
reinforcement learning (RL) algorithms; i.e. adaptive experimentation
algorithms that at each period (aka episode) interact multiple times in a
sequential manner with a single treated unit. Our goal is to be able to
evaluate counterfactual adaptive policies after data collection and to estimate
structural parameters such as dynamic treatment effects, which can be used for
credit assignment (e.g. what was the effect of the first period action on the
final outcome). Such parameters of interest can be framed as solutions to
moment equations, but not minimizers of a population loss function, leading to
Z-estimation approaches in the case of static data. However, such estimators
fail to be asymptotically normal in the case of adaptive data collection. We
propose a re-weighted Z-estimation approach with carefully designed adaptive
weights to stabilize the episode-varying estimation variance, which results
from the nonstationary policy that typical episodic RL algorithms invoke. We
identify proper weighting schemes to restore the consistency and asymptotic
normality of the re-weighted Z-estimators for target parameters, which allows
for hypothesis testing and constructing reliable confidence regions for target
parameters of interest. Primary applications include dynamic treatment effect
estimation and dynamic off-policy evaluation.
- Abstract(参考訳): エピソード強化学習(RL)アルゴリズムから収集したデータ,すなわち,各期間(いわゆるエピソード)に複数回,単一の処理単位と逐次的に相互作用する適応的実験アルゴリズムによる推定と推定について検討する。
本研究の目的は,データ収集後の非現実的適応ポリシーを評価し,クレジット割り当てに使用できる動的治療効果などの構造パラメータを推定することである(例えば,第1周期動作が最終結果にどのような影響があったか)。
このような興味のあるパラメータはモーメント方程式の解として構成できるが、人口減少関数の最小化は行わず、静的データの場合のz推定アプローチへと繋がる。
しかし、このような推定器は適応型データ収集では漸近的に正常ではない。
本稿では,エピソード変動推定のばらつきを安定化するための適応重み付けを注意深く設計したz重み付け法を提案する。
対象パラメータに対する再重み付きZ推定器の整合性と漸近正規性を取り戻すための適切な重み付けスキームを同定し、仮説テストと対象パラメータに対する信頼性の高い信頼領域の構築を可能にする。
主な応用は、動的処理効果推定と動的オフポリシー評価である。
関連論文リスト
- Targeted Machine Learning for Average Causal Effect Estimation Using the
Front-Door Functional [3.0232957374216953]
結果に対する治療の平均因果効果(ACE)を評価することは、しばしば観察研究における要因の相違によって引き起こされる課題を克服することを伴う。
本稿では,目標最小損失推定理論に基づいて,正面基準の新たな推定手法を提案する。
本研究では,早期学業成績が今後の年収に与える影響を明らかにするために,これらの推定装置の適用性を示す。
論文 参考訳(メタデータ) (2023-12-15T22:04:53Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - A Semiparametric Instrumented Difference-in-Differences Approach to
Policy Learning [2.1989182578668243]
本稿では,最適な治療方針を学習するための汎用機器差分差分法(DiD)アプローチを提案する。
具体的には、並列傾向仮定が成立しない場合、二進楽器変数(IV)を用いて識別結果を確立する。
また、ウォルド推定器、新しい逆確率推定器、半効率的で乗算的な頑健な推定器のクラスを構築する。
論文 参考訳(メタデータ) (2023-10-14T09:38:32Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - Counterfactual inference for sequential experiments [12.900489038342409]
複数の単位に複数の時間点に対する処理を割り当てるシーケンシャルな設計実験のアフタースタディ統計的推測を考察する。
我々のゴールは、最小限のスケールで、カウンターファクト平均に対する推論保証を提供することです。
我々は,いくつかのシミュレーションと,モバイル医療臨床試験HeartStepsのデータを含むケーススタディを通して,我々の理論を解説する。
論文 参考訳(メタデータ) (2022-02-14T17:24:27Z) - Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。
本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。
提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文 参考訳(メタデータ) (2021-11-15T03:16:56Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Evaluating (weighted) dynamic treatment effects by double machine
learning [0.12891210250935145]
本研究では,データ駆動方式で動的処理の因果効果を評価する。
いわゆるNeyman-orthogonal score関数を用いて,中等度(局所的な)不特定性に対する治療効果推定の頑健さを示唆する。
推定子は正規に正規であり、特定の条件下では$sqrtn$-consistentであることを示す。
論文 参考訳(メタデータ) (2020-12-01T09:55:40Z) - Double/Debiased Machine Learning for Dynamic Treatment Effects via
g-Estimation [25.610534178373065]
複数の治療が時間とともに割り当てられる場合の設定における治療効果の推定について検討する。
本稿では、治療の動的効果を推定するために、ダブル/デバイアスの機械学習フレームワークの拡張を提案する。
論文 参考訳(メタデータ) (2020-02-17T22:32:34Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。