論文の概要: Conservative Policy Construction Using Variational Autoencoders for
Logged Data with Missing Values
- arxiv url: http://arxiv.org/abs/2109.03747v1
- Date: Wed, 8 Sep 2021 16:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:41:31.284269
- Title: Conservative Policy Construction Using Variational Autoencoders for
Logged Data with Missing Values
- Title(参考訳): 変分オートエンコーダを用いたログデータへの保守的政策構築
- Authors: Mahed Abroshan, Kai Hou Yip, Cem Tekin, Mihaela van der Schaar
- Abstract要約: 特徴属性に値が欠けている場合にログデータを用いてパーソナライズされたポリシーを構築することの問題点を考察する。
目標は、値が不足している$Xt$の劣化したバージョンである$Xb$が観測された場合、アクションを推奨することである。
特に,不確かさによる不確実性に対処するためにポリシーを設計したテキスト保守戦略を導入する。
- 参考スコア(独自算出の注目度): 77.99648230758491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In high-stakes applications of data-driven decision making like healthcare,
it is of paramount importance to learn a policy that maximizes the reward while
avoiding potentially dangerous actions when there is uncertainty. There are two
main challenges usually associated with this problem. Firstly, learning through
online exploration is not possible due to the critical nature of such
applications. Therefore, we need to resort to observational datasets with no
counterfactuals. Secondly, such datasets are usually imperfect, additionally
cursed with missing values in the attributes of features. In this paper, we
consider the problem of constructing personalized policies using logged data
when there are missing values in the attributes of features in both training
and test data. The goal is to recommend an action (treatment) when $\Xt$, a
degraded version of $\Xb$ with missing values, is observed. We consider three
strategies for dealing with missingness. In particular, we introduce the
\textit{conservative strategy} where the policy is designed to safely handle
the uncertainty due to missingness. In order to implement this strategy we need
to estimate posterior distribution $p(\Xb|\Xt)$, we use variational autoencoder
to achieve this. In particular, our method is based on partial variational
autoencoders (PVAE) which are designed to capture the underlying structure of
features with missing values.
- Abstract(参考訳): 医療のようなデータ駆動意思決定の高度な応用においては、不確実性がある場合に潜在的に危険な行動を避けながら報酬を最大化する政策を学ぶことが最重要となる。
通常、この問題には2つの大きな課題がある。
まず、このようなアプリケーションの批判的な性質から、オンライン探索による学習は不可能である。
したがって,反事実のない観測データセットを活用する必要がある。
第二に、このようなデータセットは通常不完全であり、さらに特徴の属性に欠けている値で呪われている。
本稿では,トレーニングデータとテストデータの両方に特徴属性に値が欠けている場合,ログデータを用いたパーソナライズポリシーの構築の問題を検討する。
目標は、値が欠けている$\Xt$の劣化したバージョンである$\Xt$が観察されたときのアクション(処理)を推奨することである。
不足に対処するための3つの戦略を検討する。
特に,不確かさによる不確実性を安全に扱えるようにポリシーを設計した「textit{conservative strategy」を導入する。
この戦略を実装するためには、後続分布 $p(\Xb|\Xt)$ を推定する必要がある。
特に,提案手法は,特徴の基盤構造を欠落値で捉えるために設計された部分変分オートエンコーダ(PVAE)に基づいている。
関連論文リスト
- Handling Cost and Constraints with Off-Policy Deep Reinforcement
Learning [2.793095554369282]
政治外学習の最も一般的な方法は、学習された状態アクション(Q$)値関数が選択されたデータのバッチに対して最大化されるポリシー改善ステップである。
我々は、この戦略を「混合符号」報酬関数を持つ環境で再考する。
この2つ目のアプローチは、混合符号の報酬を持つ連続的な行動空間に適用した場合、リセットによって拡張された最先端の手法よりも一貫して、著しく優れる。
論文 参考訳(メタデータ) (2023-11-30T16:31:04Z) - One-Shot Strategic Classification Under Unknown Costs [19.390528752448283]
幅広いコストに対して、コスト関数の小さな誤推定でさえ、最悪の場合、自明な正確さを伴っていることを示す。
分析の結果,重要な戦略的応答,特にコスト操作関数に対する二重正則化の値が明らかになった。
論文 参考訳(メタデータ) (2023-11-05T20:43:08Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - Leveraging variational autoencoders for multiple data imputation [0.5156484100374059]
本稿では,複数の計算手法を用いて,データ欠落を考慮に入れた深部モデル,すなわち変分オートエンコーダ(VAE)について検討する。
VAEは、過小評価と過信な計算によって、欠落したデータの経験的カバレッジを低くすることがわかった。
これを克服するために、一般化されたベイズフレームワークから見た$beta$-VAEsを用いて、モデルの誤特定に対して堅牢性を提供する。
論文 参考訳(メタデータ) (2022-09-30T08:58:43Z) - Sample Complexity of Nonparametric Off-Policy Evaluation on
Low-Dimensional Manifolds using Deep Networks [71.95722100511627]
深層ニューラルネットワークを用いた強化学習における非政治的評価問題について考察する。
ネットワークサイズを適切に選択することにより、マルコフ決定過程において低次元多様体構造を利用することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:25:20Z) - Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文 参考訳(メタデータ) (2022-02-03T08:45:34Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。