論文の概要: Distributionally Robust Policy Evaluation and Learning for Continuous Treatment with Observational Data
- arxiv url: http://arxiv.org/abs/2501.10693v1
- Date: Sat, 18 Jan 2025 08:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:54.129827
- Title: Distributionally Robust Policy Evaluation and Learning for Continuous Treatment with Observational Data
- Title(参考訳): 観測データを用いた連続処理のための分散ロバスト政策評価と学習
- Authors: Cheuk Hang Leung, Yiyan Huang, Yijun Li, Qi Wu,
- Abstract要約: 政策評価と学習にオフライン観測データを使用することで、意思決定者は特性と介入を結びつける政策を評価し学習することができる。
既存の文献の多くは、個別の処理空間に焦点を絞ったり、政策学習環境と政策デプロイ環境の分布に違いを仮定しなかったりしている。
本稿では, 継続的処理環境下での分散的ロバストなポリシーの開発に焦点をあてる。
- 参考スコア(独自算出の注目度): 20.125760566665704
- License:
- Abstract: Using offline observational data for policy evaluation and learning allows decision-makers to evaluate and learn a policy that connects characteristics and interventions. Most existing literature has focused on either discrete treatment spaces or assumed no difference in the distributions between the policy-learning and policy-deployed environments. These restrict applications in many real-world scenarios where distribution shifts are present with continuous treatment. To overcome these challenges, this paper focuses on developing a distributionally robust policy under a continuous treatment setting. The proposed distributionally robust estimators are established using the Inverse Probability Weighting (IPW) method extended from the discrete one for policy evaluation and learning under continuous treatments. Specifically, we introduce a kernel function into the proposed IPW estimator to mitigate the exclusion of observations that can occur in the standard IPW method to continuous treatments. We then provide finite-sample analysis that guarantees the convergence of the proposed distributionally robust policy evaluation and learning estimators. The comprehensive experiments further verify the effectiveness of our approach when distribution shifts are present.
- Abstract(参考訳): 政策評価と学習にオフライン観測データを使用することで、意思決定者は特性と介入を結びつける政策を評価し学習することができる。
既存の文献の多くは、個別の処理空間に焦点を絞ったり、政策学習環境と政策デプロイ環境の分布に違いを仮定しなかったりしている。
これらは、分散シフトが連続的な処理で存在する多くの実世界のシナリオにおける応用を制限する。
これらの課題を克服するために, 継続的処理環境下での分散的ロバストなポリシーの開発に焦点をあてる。
Inverse Probability Weighting (IPW) 法を用いて, 連続処理による政策評価と学習を行う。
具体的には、提案したIPW推定器にカーネル関数を導入し、標準IPW法から連続処理への観察の排除を緩和する。
次に,提案した分散ロバストな政策評価と学習推定器の収束を保証する有限サンプル解析を行う。
包括的実験により,分布シフトが存在する場合のアプローチの有効性がさらに検証された。
関連論文リスト
- Conformal Counterfactual Inference under Hidden Confounding [19.190396053530417]
反ファクトの世界における潜在的な結果の予測と不確実性は、因果推論における因果的問題を引き起こす。
反事実に対する信頼区間を構成する既存の方法は、強い無知の仮定に依存する。
提案手法は, 限界収束保証付き実測結果に対する信頼区間を提供するトランスダクティブ重み付き共形予測に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-20T21:43:43Z) - Positivity-free Policy Learning with Observational Data [8.293758599118618]
本研究では,新しい肯定的(確率的)政策学習フレームワークを提案する。
本研究では,治療に一定値を割り当てる代わりに,適応度スコア値を調整するための漸進的適合度スコアポリシーを提案する。
本稿では,政策学習に関連する理論的保証を徹底的に検討し,提案フレームワークの有限サンプル性能を検証した。
論文 参考訳(メタデータ) (2023-10-10T19:47:27Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。