論文の概要: Reinforcement Learning with Heterogeneous Data: Estimation and Inference
- arxiv url: http://arxiv.org/abs/2202.00088v1
- Date: Mon, 31 Jan 2022 20:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 04:47:18.169441
- Title: Reinforcement Learning with Heterogeneous Data: Estimation and Inference
- Title(参考訳): 不均一データを用いた強化学習:推定と推論
- Authors: Elynn Y. Chen, Rui Song, Michael I. Jordan
- Abstract要約: 人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
- 参考スコア(独自算出の注目度): 84.72174994749305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has the promise of providing data-driven support
for decision-making in a wide range of problems in healthcare, education,
business, and other domains. Classical RL methods focus on the mean of the
total return and, thus, may provide misleading results in the setting of the
heterogeneous populations that commonly underlie large-scale datasets. We
introduce the K-Heterogeneous Markov Decision Process (K-Hetero MDP) to address
sequential decision problems with population heterogeneity. We propose the
Auto-Clustered Policy Evaluation (ACPE) for estimating the value of a given
policy, and the Auto-Clustered Policy Iteration (ACPI) for estimating the
optimal policy in a given policy class. Our auto-clustered algorithms can
automatically detect and identify homogeneous sub-populations, while estimating
the Q function and the optimal policy for each sub-population. We establish
convergence rates and construct confidence intervals for the estimators
obtained by the ACPE and ACPI. We present simulations to support our
theoretical findings, and we conduct an empirical study on the standard
MIMIC-III dataset. The latter analysis shows evidence of value heterogeneity
and confirms the advantages of our new method.
- Abstract(参考訳): 強化学習(rl)は、医療、教育、ビジネス、その他の分野における幅広い問題において、意思決定のためのデータ駆動サポートを提供することを約束する。
古典的なRL法は、全リターンの平均に焦点をあて、したがって、一般に大規模なデータセットを過小評価する異種集団の設定において誤解を招く結果をもたらす可能性がある。
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
自動クラスタリングアルゴリズムは,Q関数と各サブポピュレーションに対する最適ポリシーを推定しながら,同種サブポピュレーションを自動的に検出,同定することができる。
我々は、ACPEとACPIで得られた推定値に対して収束率を確立し、信頼区間を構築する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
後者の分析は, 価値の不均一性の証拠を示し, 新手法の利点を裏付けるものである。
関連論文リスト
- Hierarchical and Density-based Causal Clustering [6.082022112101251]
本稿では,既成のアルゴリズムを用いて簡易かつ容易に実装可能なプラグイン推定器を提案する。
さらに,それらの収束率について検討し,因果クラスタリングの付加コストが基本的に結果回帰関数の推定誤差であることを示す。
論文 参考訳(メタデータ) (2024-11-02T14:01:04Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Offline Policy Evaluation and Optimization under Confounding [35.778917456294046]
構築されたMDPのオフライン政策評価の状況について概説する。
一貫性のある値推定が達成不可能な設定を特徴付ける。
オフライン政策改善のための新しいアルゴリズムを提案し、局所収束保証を証明する。
論文 参考訳(メタデータ) (2022-11-29T20:45:08Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Targeted Optimal Treatment Regime Learning Using Summary Statistics [12.767669486030352]
我々は、ソースとターゲットの集団が不均一である可能性のあるITR推定問題を考える。
我々は、利用可能な要約統計を利用して、所定の対象人口に対してITRを調整する重み付けフレームワークを開発する。
具体的には,対象集団の値関数の補正された逆確率重み付き推定器を提案し,最適ITRを推定する。
論文 参考訳(メタデータ) (2022-01-17T06:11:31Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。