論文の概要: Reinforcement Learning with Continuous Actions Under Unmeasured Confounding
- arxiv url: http://arxiv.org/abs/2505.00304v1
- Date: Thu, 01 May 2025 04:55:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.227095
- Title: Reinforcement Learning with Continuous Actions Under Unmeasured Confounding
- Title(参考訳): 不測条件下での継続的行動による強化学習
- Authors: Yuhan Li, Eugene Han, Yifan Hu, Wenzhuo Zhou, Zhengling Qi, Yifan Cui, Ruoqing Zhu,
- Abstract要約: 本稿では,連続行動空間を用いた強化学習におけるオフライン政策学習の課題に対処する。
我々は,ミニマックス推定器を開発し,クラス内最適ポリシーを特定するためのポリシー勾配に基づくアルゴリズムを提案する。
得られた最適方針の整合性、有限サンプル誤差境界、後悔境界に関する理論的結果を提供する。
- 参考スコア(独自算出の注目度): 14.510042451844766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenge of offline policy learning in reinforcement learning with continuous action spaces when unmeasured confounders are present. While most existing research focuses on policy evaluation within partially observable Markov decision processes (POMDPs) and assumes discrete action spaces, we advance this field by establishing a novel identification result to enable the nonparametric estimation of policy value for a given target policy under an infinite-horizon framework. Leveraging this identification, we develop a minimax estimator and introduce a policy-gradient-based algorithm to identify the in-class optimal policy that maximizes the estimated policy value. Furthermore, we provide theoretical results regarding the consistency, finite-sample error bound, and regret bound of the resulting optimal policy. Extensive simulations and a real-world application using the German Family Panel data demonstrate the effectiveness of our proposed methodology.
- Abstract(参考訳): 本稿では,非計測的共同設立者が存在する場合の連続行動空間を用いた強化学習におけるオフライン政策学習の課題について述べる。
現存するほとんどの研究は、部分的に観測可能なマルコフ決定プロセス(POMDP)内の政策評価に焦点をあて、離散的な行動空間を仮定するが、我々は、無限水平の枠組みの下で、所定の目標政策に対する政策値の非パラメトリック推定を可能にする新しい識別結果を確立することにより、この分野を前進させる。
この同定を利用して、推定されたポリシー値を最大化するクラス内最適ポリシーを特定するために、ミニマックス推定器を開発し、ポリシー勾配に基づくアルゴリズムを導入する。
さらに, 得られた最適方針の整合性, 有限サンプル誤差境界, 後悔境界に関する理論的結果を提供する。
ドイツのファミリーパネルデータを用いた大規模シミュレーションと実世界の応用により,提案手法の有効性を実証した。
関連論文リスト
- Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies [24.706986328622193]
強化学習のための決定論的目標政策の非政治的評価を考察する。
動作値関数の時間差更新ベクトルの推定値の平均二乗誤差を最小化するカーネルメトリクスを学習する。
この緩和による推定誤差のバイアスとばらつきを導出し、最適なカーネル計量に対する解析解を提供する。
論文 参考訳(メタデータ) (2024-05-29T06:17:33Z) - Logarithmic Smoothing for Pessimistic Off-Policy Evaluation, Selection and Learning [7.085987593010675]
本研究は,文脈的包帯問題のオフライン定式化について検討する。
目標は、行動ポリシーの下で収集された過去のインタラクションを活用して、新しい、より優れたパフォーマンスのポリシーを評価し、選択し、学習することである。
重要度重み付けリスク推定器の幅広いクラスに対して,新しい完全経験的濃度境界を導入する。
論文 参考訳(メタデータ) (2024-05-23T09:07:27Z) - Positivity-free Policy Learning with Observational Data [8.293758599118618]
本研究では,新しい肯定的(確率的)政策学習フレームワークを提案する。
本研究では,治療に一定値を割り当てる代わりに,適応度スコア値を調整するための漸進的適合度スコアポリシーを提案する。
本稿では,政策学習に関連する理論的保証を徹底的に検討し,提案フレームワークの有限サンプル性能を検証した。
論文 参考訳(メタデータ) (2023-10-10T19:47:27Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Batch Policy Learning in Average Reward Markov Decision Processes [3.9023554886892438]
モバイル健康アプリケーションに動機づけられた我々は、長期的な平均報酬を最大化する政策を学ぶことに集中する。
パラメータ化されたポリシークラスで最適ポリシーを計算する最適化アルゴリズムを開発した。
推定ポリシのパフォーマンスは、ポリシークラスにおける最適平均報酬と推定ポリシの平均報酬との差によって測定される。
論文 参考訳(メタデータ) (2020-07-23T03:28:14Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。