論文の概要: Post-Episodic Reinforcement Learning Inference
- arxiv url: http://arxiv.org/abs/2302.08854v2
- Date: Fri, 28 Jul 2023 10:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 16:22:47.364547
- Title: Post-Episodic Reinforcement Learning Inference
- Title(参考訳): ポスト・エピソジック強化学習推論
- Authors: Vasilis Syrgkanis, Ruohan Zhan
- Abstract要約: エピソード強化学習(RL)アルゴリズムから収集したデータによる推定と推定について検討する。
本稿では,適応重み付き再重み付き$Z$推定手法を提案する。
主な応用は、動的処理効果推定と動的オフポリシー評価である。
- 参考スコア(独自算出の注目度): 24.290665221707652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider estimation and inference with data collected from episodic
reinforcement learning (RL) algorithms; i.e. adaptive experimentation
algorithms that at each period (aka episode) interact multiple times in a
sequential manner with a single treated unit. Our goal is to be able to
evaluate counterfactual adaptive policies after data collection and to estimate
structural parameters such as dynamic treatment effects, which can be used for
credit assignment (e.g. what was the effect of the first period action on the
final outcome). Such parameters of interest can be framed as solutions to
moment equations, but not minimizers of a population loss function, leading to
$Z$-estimation approaches in the case of static data. However, such estimators
fail to be asymptotically normal in the case of adaptive data collection. We
propose a re-weighted $Z$-estimation approach with carefully designed adaptive
weights to stabilize the episode-varying estimation variance, which results
from the nonstationary policy that typical episodic RL algorithms invoke. We
identify proper weighting schemes to restore the consistency and asymptotic
normality of the re-weighted Z-estimators for target parameters, which allows
for hypothesis testing and constructing uniform confidence regions for target
parameters of interest. Primary applications include dynamic treatment effect
estimation and dynamic off-policy evaluation.
- Abstract(参考訳): エピソード強化学習(RL)アルゴリズムから収集したデータ,すなわち,各期間(いわゆるエピソード)に複数回,単一の処理単位と逐次的に相互作用する適応的実験アルゴリズムによる推定と推定について検討する。
本研究の目的は,データ収集後の非現実的適応ポリシーを評価し,クレジット割り当てに使用できる動的治療効果などの構造パラメータを推定することである(例えば,第1周期動作が最終結果にどのような影響があったか)。
このような興味のあるパラメータはモーメント方程式の解として表すことができるが、人口減少関数の最小化は行わず、静的データの場合、$Z$-estimation アプローチに繋がる。
しかし、このような推定器は適応型データ収集では漸近的に正常ではない。
本稿では,エピソード変動推定のばらつきを安定化するために,適応重みを注意深く設計した再重み付け手法であるz$推定手法を提案する。
対象パラメータに対する再重み付きZ推定器の整合性と漸近正規性を取り戻すための適切な重み付けスキームを同定し、仮説テストと対象パラメータに対する一様信頼領域の構築を可能にする。
主な応用は、動的処理効果推定と動的オフポリシー評価である。
関連論文リスト
- Embedding generalization within the learning dynamics: An approach based-on sample path large deviation theory [0.0]
本研究では,持続的視点から手法を利用する経験的リスク摂動に基づく学習問題を考察する。
大規模偏差のFreidlin-Wentzell理論に基づく小雑音限界の推定を行う。
また、最適点推定に繋がる変分問題を解く計算アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-04T23:31:35Z) - C-Learner: Constrained Learning for Causal Inference and Semiparametric Statistics [5.395560682099634]
そこで本研究では,安定なプラグイン推定を望ましい特性で実現する新しいデバイアス推定器を提案する。
我々の制約学習フレームワークは、プラグイン量に対する一階誤差がゼロであるという制約の下で、最高のプラグイン推定器を解く。
我々の推定器は、処理と制御の重複が限定された挑戦的な環境での一段階推定と目標を上回り、それ以外は比較可能である。
論文 参考訳(メタデータ) (2024-05-15T16:38:28Z) - Targeted Machine Learning for Average Causal Effect Estimation Using the
Front-Door Functional [3.0232957374216953]
結果に対する治療の平均因果効果(ACE)を評価することは、しばしば観察研究における要因の相違によって引き起こされる課題を克服することを伴う。
本稿では,目標最小損失推定理論に基づいて,正面基準の新たな推定手法を提案する。
本研究では,早期学業成績が今後の年収に与える影響を明らかにするために,これらの推定装置の適用性を示す。
論文 参考訳(メタデータ) (2023-12-15T22:04:53Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - A Semiparametric Instrumented Difference-in-Differences Approach to
Policy Learning [2.1989182578668243]
本稿では,最適な治療方針を学習するための汎用機器差分差分法(DiD)アプローチを提案する。
具体的には、並列傾向仮定が成立しない場合、二進楽器変数(IV)を用いて識別結果を確立する。
また、ウォルド推定器、新しい逆確率推定器、半効率的で乗算的な頑健な推定器のクラスを構築する。
論文 参考訳(メタデータ) (2023-10-14T09:38:32Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Double/Debiased Machine Learning for Dynamic Treatment Effects via
g-Estimation [25.610534178373065]
複数の治療が時間とともに割り当てられる場合の設定における治療効果の推定について検討する。
本稿では、治療の動的効果を推定するために、ダブル/デバイアスの機械学習フレームワークの拡張を提案する。
論文 参考訳(メタデータ) (2020-02-17T22:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。