論文の概要: Positivity-free Policy Learning with Observational Data
- arxiv url: http://arxiv.org/abs/2310.06969v1
- Date: Tue, 10 Oct 2023 19:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:25:08.860013
- Title: Positivity-free Policy Learning with Observational Data
- Title(参考訳): 観測データを用いたポジティビティフリー政策学習
- Authors: Pan Zhao, Antoine Chambaz, Julie Josse, Shu Yang
- Abstract要約: 本研究では,新しい肯定的(確率的)政策学習フレームワークを提案する。
本研究では,治療に一定値を割り当てる代わりに,適応度スコア値を調整するための漸進的適合度スコアポリシーを提案する。
本稿では,政策学習に関連する理論的保証を徹底的に検討し,提案フレームワークの有限サンプル性能を検証した。
- 参考スコア(独自算出の注目度): 8.293758599118618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy learning utilizing observational data is pivotal across various
domains, with the objective of learning the optimal treatment assignment policy
while adhering to specific constraints such as fairness, budget, and
simplicity. This study introduces a novel positivity-free (stochastic) policy
learning framework designed to address the challenges posed by the
impracticality of the positivity assumption in real-world scenarios. This
framework leverages incremental propensity score policies to adjust propensity
score values instead of assigning fixed values to treatments. We characterize
these incremental propensity score policies and establish identification
conditions, employing semiparametric efficiency theory to propose efficient
estimators capable of achieving rapid convergence rates, even when integrated
with advanced machine learning algorithms. This paper provides a thorough
exploration of the theoretical guarantees associated with policy learning and
validates the proposed framework's finite-sample performance through
comprehensive numerical experiments, ensuring the identification of causal
effects from observational data is both robust and reliable.
- Abstract(参考訳): 観察データを利用した政策学習は、公正性、予算、単純さといった特定の制約に固執しながら、最適な治療割当方針を学ぶことを目的として、様々な分野にまたがって重要である。
本研究では,現実のシナリオにおける肯定的仮定の不現実性から生じる課題に対処するために,新たな肯定的(確率的)政策学習フレームワークを提案する。
このフレームワークは、漸進的な確率スコアポリシーを利用して、治療に固定値を割り当てる代わりに、確率スコア値を調整する。
我々は,これらの漸進的適合度スコアポリシーを特徴付け,半パラメトリック効率理論を用いて,高度な機械学習アルゴリズムと統合しても,迅速な収束率を達成できる効率的な推定器を提案する。
本稿では,政策学習に関連する理論的保証を徹底的に検討し,包括的な数値実験を通じて提案フレームワークの有限サンプル性能を検証し,観測データから因果的影響の同定が堅牢かつ確実であることを保証する。
関連論文リスト
- Towards Theoretical Understanding of Data-Driven Policy Refinement [0.0]
本稿では、特に安全クリティカルなアプリケーションのために設計された強化学習におけるデータ駆動型ポリシー改善のアプローチを提案する。
我々の主な貢献は、このデータ駆動政策改善の概念の数学的定式化にある。
我々は、収束性、ロバスト性境界、一般化誤差、モデルミスマッチに対するレジリエンスなど、我々のアプローチの重要な理論的性質を解明する一連の定理を提示する。
論文 参考訳(メタデータ) (2023-05-11T13:36:21Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Doubly Robust Interval Estimation for Optimal Policy Evaluation in Online Learning [8.736154600219685]
オンライン学習における政策評価が注目を集めている。
しかし、オンライン環境で生成された依存データのため、このような問題は特に困難である。
本研究では,オンライン学習における最適ポリシーに基づいて,2倍頑健区間推定法(DREAM)を開発した。
論文 参考訳(メタデータ) (2021-10-29T02:38:54Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。