論文の概要: Off-Policy Confidence Interval Estimation with Confounded Markov
Decision Process
- arxiv url: http://arxiv.org/abs/2202.10589v1
- Date: Tue, 22 Feb 2022 00:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 14:58:07.425112
- Title: Off-Policy Confidence Interval Estimation with Confounded Markov
Decision Process
- Title(参考訳): マルコフ決定過程を用いたオフポリティ信頼区間推定
- Authors: Chengchun Shi, Jin Zhu, Ye Shen, Shikai Luo, Hongtu Zhu and Rui Song
- Abstract要約: システム力学における動作の影響を媒介する補助変数によっては、マルコフ決定過程において対象ポリシーの値が識別可能であることを示す。
提案手法は, ライドシェアリング会社から得られた理論的結果, シミュレーション, 実データによって正当化される。
- 参考スコア(独自算出の注目度): 14.828039846764549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is concerned with constructing a confidence interval for a target
policy's value offline based on a pre-collected observational data in infinite
horizon settings. Most of the existing works assume no unmeasured variables
exist that confound the observed actions. This assumption, however, is likely
to be violated in real applications such as healthcare and technological
industries. In this paper, we show that with some auxiliary variables that
mediate the effect of actions on the system dynamics, the target policy's value
is identifiable in a confounded Markov decision process. Based on this result,
we develop an efficient off-policy value estimator that is robust to potential
model misspecification and provide rigorous uncertainty quantification. Our
method is justified by theoretical results, simulated and real datasets
obtained from ridesharing companies.
- Abstract(参考訳): 本稿では,事前に収集した観測データに基づいて,目標政策値のオフライン信頼区間を構築することを目的とする。
既存の研究の多くは、観測された行動に反する未測定変数は存在しないと仮定している。
しかし、この仮定は、医療や技術産業のような実際の応用において違反される可能性が高い。
本稿では,システムダイナミクスに対する動作の影響を媒介する補助変数によっては,マルコフ決定過程において対象ポリシーの値が識別可能であることを示す。
この結果に基づき,潜在的なモデルの誤特定に頑健な効率的なオフポリシー値推定器を開発し,厳密な不確実性定量化を実現する。
提案手法は,ライドシェアリング会社から得られた理論的結果,シミュレーションおよび実データによって正当化される。
関連論文リスト
- Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - An Instrumental Variable Approach to Confounded Off-Policy Evaluation [11.785128674216903]
オフ政治評価(Off-policy Evaluation、OPE)は、目標政策の回帰を推定する手法である。
本稿では,マルコフ決定過程における一貫した OPE のインストゥルメンタル変数 (IV) に基づく手法を提案する。
論文 参考訳(メタデータ) (2022-12-29T22:06:51Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Statistical Bootstrapping for Uncertainty Estimation in Off-Policy
Evaluation [38.31971190670345]
本研究は,政策の真の価値を校正した信頼区間を生成する手段として,統計的ブートストラップの可能性について検討する。
本研究では, 連続制御環境や小規模なデータ体制など, 様々な条件下で精度の高い信頼区間が得られることを示す。
論文 参考訳(メタデータ) (2020-07-27T14:49:22Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。