論文の概要: Post Reinforcement Learning Inference
- arxiv url: http://arxiv.org/abs/2302.08854v5
- Date: Fri, 03 Oct 2025 16:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:51.829893
- Title: Post Reinforcement Learning Inference
- Title(参考訳): ポスト強化学習推論
- Authors: Vasilis Syrgkanis, Ruohan Zhan,
- Abstract要約: 強化学習アルゴリズムによって収集されたデータを用いて推定と推定を行う。
この分散を安定化させるために適応重みを用いる重み付き一般化モーメント法(GMM)を提案する。
主な用途は、動的処理効果の推定と動的オフポリシー評価である。
- 参考スコア(独自算出の注目度): 20.521169740409263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study estimation and inference using data collected by reinforcement learning (RL) algorithms. These algorithms adaptively experiment by interacting with individual units over multiple stages, updating their strategies based on past outcomes. Our goal is to evaluate a counterfactual policy after data collection and estimate structural parameters, such as dynamic treatment effects, that support credit assignment and quantify the impact of early actions on final outcomes. These parameters can often be defined as solutions to moment equations, motivating moment-based estimation methods developed for static data. In RL settings, however, data are often collected adaptively under nonstationary behavior policies. As a result, standard estimators fail to achieve asymptotic normality due to time-varying variance. We propose a weighted generalized method of moments (GMM) approach that uses adaptive weights to stabilize this variance. We characterize weighting schemes that ensure consistency and asymptotic normality of the weighted GMM estimators, enabling valid hypothesis testing and uniform confidence region construction. Key applications include dynamic treatment effect estimation and dynamic off-policy evaluation.
- Abstract(参考訳): 強化学習(RL)アルゴリズムで収集したデータを用いて推定と推定を行う。
これらのアルゴリズムは、複数の段階にわたって個々のユニットと相互作用し、過去の結果に基づいて戦略を更新することで適応的に実験する。
本研究の目的は, 早期行動が最終結果に与える影響を定量的に評価し, 動的処理効果などの構造パラメータをデータ収集後に評価し, 評価することである。
これらのパラメータはしばしばモーメント方程式の解として定義され、静的データのために開発されたモーメントベースの推定手法を動機付けている。
しかし、RL設定では、データは非定常行動ポリシーの下で適応的に収集されることが多い。
その結果、標準推定器は時間変化のばらつきにより漸近正規性を達成することができない。
この分散を安定化させるために適応重みを用いる重み付き一般化モーメント法(GMM)を提案する。
重み付きGMM推定器の整合性と漸近正規性を保証する重み付け方式を特徴付ける。
主な用途は、動的処理効果の推定と動的オフポリシー評価である。
関連論文リスト
- Semiparametric Counterfactual Regression [2.356908851188234]
一般化可能なフレームワーク内での非実効的回帰のための2つの頑健なスタイル推定器を提案する。
当社のアプローチでは,標準手法を維持しながら適応性を高めるために,漸進的な介入を用いる。
解析の結果,提案した推定器は幅広い問題に対して$sqrn$-consistencyと正規性が得られることがわかった。
論文 参考訳(メタデータ) (2025-04-03T15:32:26Z) - Embedding generalization within the learning dynamics: An approach based-on sample path large deviation theory [0.0]
本研究では,持続的視点から手法を利用する経験的リスク摂動に基づく学習問題を考察する。
大規模偏差のFreidlin-Wentzell理論に基づく小雑音限界の推定を行う。
また、最適点推定に繋がる変分問題を解く計算アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-04T23:31:35Z) - C-Learner: Constrained Learning for Causal Inference and Semiparametric Statistics [5.395560682099634]
そこで本研究では,安定なプラグイン推定を望ましい特性で実現する新しいデバイアス推定器を提案する。
我々の制約学習フレームワークは、プラグイン量に対する一階誤差がゼロであるという制約の下で、最高のプラグイン推定器を解く。
我々の推定器は、処理と制御の重複が限定された挑戦的な環境での一段階推定と目標を上回り、それ以外は比較可能である。
論文 参考訳(メタデータ) (2024-05-15T16:38:28Z) - Targeted Machine Learning for Average Causal Effect Estimation Using the
Front-Door Functional [3.0232957374216953]
結果に対する治療の平均因果効果(ACE)を評価することは、しばしば観察研究における要因の相違によって引き起こされる課題を克服することを伴う。
本稿では,目標最小損失推定理論に基づいて,正面基準の新たな推定手法を提案する。
本研究では,早期学業成績が今後の年収に与える影響を明らかにするために,これらの推定装置の適用性を示す。
論文 参考訳(メタデータ) (2023-12-15T22:04:53Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - A Semiparametric Instrumented Difference-in-Differences Approach to
Policy Learning [2.1989182578668243]
本稿では,最適な治療方針を学習するための汎用機器差分差分法(DiD)アプローチを提案する。
具体的には、並列傾向仮定が成立しない場合、二進楽器変数(IV)を用いて識別結果を確立する。
また、ウォルド推定器、新しい逆確率推定器、半効率的で乗算的な頑健な推定器のクラスを構築する。
論文 参考訳(メタデータ) (2023-10-14T09:38:32Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Double/Debiased Machine Learning for Dynamic Treatment Effects via
g-Estimation [25.610534178373065]
複数の治療が時間とともに割り当てられる場合の設定における治療効果の推定について検討する。
本稿では、治療の動的効果を推定するために、ダブル/デバイアスの機械学習フレームワークの拡張を提案する。
論文 参考訳(メタデータ) (2020-02-17T22:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。