Fugu-MT 論文翻訳(概要): Post-Episodic Reinforcement Learning Inference

論文の概要: Post-Episodic Reinforcement Learning Inference

arxiv url: http://arxiv.org/abs/2302.08854v1
Date: Fri, 17 Feb 2023 12:53:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-20 14:53:14.498408
Title: Post-Episodic Reinforcement Learning Inference
Title（参考訳）: ポスト・エピソジック強化学習推論
Authors: Vasilis Syrgkanis, Ruohan Zhan
Abstract要約: エピソード強化学習(RL)から収集したデータによる推定と推定について検討する。そこで本稿では, エピソード変動推定分散を安定化させるため, 慎重に設計した解を用いた再重み付きZ推定手法を提案する。主な応用は、動的処理効果推定と動的オフポリシー評価である。
参考スコア（独自算出の注目度）: 24.290665221707652
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider estimation and inference with data collected from episodic reinforcement learning (RL) algorithms; i.e. adaptive experimentation algorithms that at each period (aka episode) interact multiple times in a sequential manner with a single treated unit. Our goal is to be able to evaluate counterfactual adaptive policies after data collection and to estimate structural parameters such as dynamic treatment effects, which can be used for credit assignment (e.g. what was the effect of the first period action on the final outcome). Such parameters of interest can be framed as solutions to moment equations, but not minimizers of a population loss function, leading to Z-estimation approaches in the case of static data. However, such estimators fail to be asymptotically normal in the case of adaptive data collection. We propose a re-weighted Z-estimation approach with carefully designed adaptive weights to stabilize the episode-varying estimation variance, which results from the nonstationary policy that typical episodic RL algorithms invoke. We identify proper weighting schemes to restore the consistency and asymptotic normality of the re-weighted Z-estimators for target parameters, which allows for hypothesis testing and constructing reliable confidence regions for target parameters of interest. Primary applications include dynamic treatment effect estimation and dynamic off-policy evaluation.
Abstract（参考訳）: エピソード強化学習(RL)アルゴリズムから収集したデータ,すなわち,各期間(いわゆるエピソード)に複数回,単一の処理単位と逐次的に相互作用する適応的実験アルゴリズムによる推定と推定について検討する。本研究の目的は,データ収集後の非現実的適応ポリシーを評価し,クレジット割り当てに使用できる動的治療効果などの構造パラメータを推定することである(例えば,第1周期動作が最終結果にどのような影響があったか)。このような興味のあるパラメータはモーメント方程式の解として構成できるが、人口減少関数の最小化は行わず、静的データの場合のz推定アプローチへと繋がる。しかし、このような推定器は適応型データ収集では漸近的に正常ではない。本稿では,エピソード変動推定のばらつきを安定化するための適応重み付けを注意深く設計したz重み付け法を提案する。対象パラメータに対する再重み付きZ推定器の整合性と漸近正規性を取り戻すための適切な重み付けスキームを同定し、仮説テストと対象パラメータに対する信頼性の高い信頼領域の構築を可能にする。主な応用は、動的処理効果推定と動的オフポリシー評価である。

関連論文リスト

Learning Complex Physical Regimes via Coverage-oriented Uncertainty Quantification: An application to the Critical Heat Flux [0.0]
不確実性定量化(UQ)は、安全性評価ではなく、学習タスク自体への支援と見なされるべきである。 OECD/NEA Expert Group on Reactor Systems Multi-Physicsで発表されたCritical Heat Fluxベンチマークとデータセットに注目した。ポストホック法は統計的キャリブレーションを保証するが、カバレッジ指向学習は複雑な物理状態に適合するようにモデルの表現を効果的に再評価する。
論文参考訳（メタデータ） (2026-02-25T09:04:15Z)
Uncertainty Quantification for Regression using Proper Scoring Rules [76.24649098854219]
CRPS,対数,2乗誤差,2次スコアなど,適切なスコアリングルールに基づく回帰のための統一的UQフレームワークを提案する。実測パラメトリックな仮定に基づく不確実性尺度に対する閉形式式を導出し、モデルのアンサンブルを用いてそれらを推定する方法を示す。合成および実世界の回帰データセットに対する広範な評価は、信頼性の高いUQ尺度を選択するためのガイダンスを提供する。
論文参考訳（メタデータ） (2025-09-30T17:52:12Z)
Instance-Dependent Continuous-Time Reinforcement Learning via Maximum Likelihood Estimation [27.232790785138427]
連続時間強化学習(CTRL)は、動的環境におけるシーケンシャルな意思決定のための自然な枠組みを提供する。経験的成功の度合いは高まっているが、様々なレベルの問題に適応する能力はいまだに理解されていない。本研究では,最大推定値に基づいて構築されたモデルに基づく簡易アルゴリズムのインスタンス依存挙動について検討する。
論文参考訳（メタデータ） (2025-08-04T06:25:45Z)
Semiparametric Counterfactual Regression [2.356908851188234]
一般化可能なフレームワーク内での非実効的回帰のための2つの頑健なスタイル推定器を提案する。当社のアプローチでは,標準手法を維持しながら適応性を高めるために,漸進的な介入を用いる。解析の結果,提案した推定器は幅広い問題に対して$sqrn$-consistencyと正規性が得られることがわかった。
論文参考訳（メタデータ） (2025-04-03T15:32:26Z)
Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文参考訳（メタデータ） (2025-02-11T19:24:09Z)
Embedding generalization within the learning dynamics: An approach based-on sample path large deviation theory [0.0]
本研究では,持続的視点から手法を利用する経験的リスク摂動に基づく学習問題を考察する。大規模偏差のFreidlin-Wentzell理論に基づく小雑音限界の推定を行う。また、最適点推定に繋がる変分問題を解く計算アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-04T23:31:35Z)
C-Learner: Constrained Learning for Causal Inference and Semiparametric Statistics [5.395560682099634]
そこで本研究では,安定なプラグイン推定を望ましい特性で実現する新しいデバイアス推定器を提案する。我々の制約学習フレームワークは、プラグイン量に対する一階誤差がゼロであるという制約の下で、最高のプラグイン推定器を解く。我々の推定器は、処理と制御の重複が限定された挑戦的な環境での一段階推定と目標を上回り、それ以外は比較可能である。
論文参考訳（メタデータ） (2024-05-15T16:38:28Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文参考訳（メタデータ） (2024-03-18T14:51:19Z)
Targeted Machine Learning for Average Causal Effect Estimation Using the Front-Door Functional [3.0232957374216953]
結果に対する治療の平均因果効果(ACE)を評価することは、しばしば観察研究における要因の相違によって引き起こされる課題を克服することを伴う。本稿では,目標最小損失推定理論に基づいて,正面基準の新たな推定手法を提案する。本研究では,早期学業成績が今後の年収に与える影響を明らかにするために,これらの推定装置の適用性を示す。
論文参考訳（メタデータ） (2023-12-15T22:04:53Z)
Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。本手法は, 精度の高い問題に特に適している。提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文参考訳（メタデータ） (2023-11-08T00:10:21Z)
A Semiparametric Instrumented Difference-in-Differences Approach to Policy Learning [2.1989182578668243]
本稿では,最適な治療方針を学習するための汎用機器差分差分法(DiD)アプローチを提案する。具体的には、並列傾向仮定が成立しない場合、二進楽器変数(IV)を用いて識別結果を確立する。また、ウォルド推定器、新しい逆確率推定器、半効率的で乗算的な頑健な推定器のクラスを構築する。
論文参考訳（メタデータ） (2023-10-14T09:38:32Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文参考訳（メタデータ） (2021-06-22T17:58:46Z)
Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文参考訳（メタデータ） (2021-06-01T12:01:51Z)
Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-08T23:16:19Z)
CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文参考訳（メタデータ） (2020-10-22T12:39:11Z)
GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文参考訳（メタデータ） (2020-02-21T00:27:52Z)
Double/Debiased Machine Learning for Dynamic Treatment Effects via g-Estimation [25.610534178373065]
複数の治療が時間とともに割り当てられる場合の設定における治療効果の推定について検討する。本稿では、治療の動的効果を推定するために、ダブル/デバイアスの機械学習フレームワークの拡張を提案する。
論文参考訳（メタデータ） (2020-02-17T22:32:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。