Fugu-MT 論文翻訳(概要): Reinforcement Learning with Heterogeneous Data: Estimation and Inference

論文の概要: Reinforcement Learning with Heterogeneous Data: Estimation and Inference

arxiv url: http://arxiv.org/abs/2202.00088v1
Date: Mon, 31 Jan 2022 20:58:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-03 04:47:18.169441
Title: Reinforcement Learning with Heterogeneous Data: Estimation and Inference
Title（参考訳）: 不均一データを用いた強化学習:推定と推論
Authors: Elynn Y. Chen, Rui Song, Michael I. Jordan
Abstract要約: 人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
参考スコア（独自算出の注目度）: 84.72174994749305
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning (RL) has the promise of providing data-driven support for decision-making in a wide range of problems in healthcare, education, business, and other domains. Classical RL methods focus on the mean of the total return and, thus, may provide misleading results in the setting of the heterogeneous populations that commonly underlie large-scale datasets. We introduce the K-Heterogeneous Markov Decision Process (K-Hetero MDP) to address sequential decision problems with population heterogeneity. We propose the Auto-Clustered Policy Evaluation (ACPE) for estimating the value of a given policy, and the Auto-Clustered Policy Iteration (ACPI) for estimating the optimal policy in a given policy class. Our auto-clustered algorithms can automatically detect and identify homogeneous sub-populations, while estimating the Q function and the optimal policy for each sub-population. We establish convergence rates and construct confidence intervals for the estimators obtained by the ACPE and ACPI. We present simulations to support our theoretical findings, and we conduct an empirical study on the standard MIMIC-III dataset. The latter analysis shows evidence of value heterogeneity and confirms the advantages of our new method.
Abstract（参考訳）: 強化学習(rl)は、医療、教育、ビジネス、その他の分野における幅広い問題において、意思決定のためのデータ駆動サポートを提供することを約束する。古典的なRL法は、全リターンの平均に焦点をあて、したがって、一般に大規模なデータセットを過小評価する異種集団の設定において誤解を招く結果をもたらす可能性がある。人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。自動クラスタリングアルゴリズムは,Q関数と各サブポピュレーションに対する最適ポリシーを推定しながら,同種サブポピュレーションを自動的に検出,同定することができる。我々は、ACPEとACPIで得られた推定値に対して収束率を確立し、信頼区間を構築する。理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。後者の分析は, 価値の不均一性の証拠を示し, 新手法の利点を裏付けるものである。

関連論文リスト

Hierarchical and Density-based Causal Clustering [6.082022112101251]
本稿では,既成のアルゴリズムを用いて簡易かつ容易に実装可能なプラグイン推定器を提案する。さらに,それらの収束率について検討し,因果クラスタリングの付加コストが基本的に結果回帰関数の推定誤差であることを示す。
論文参考訳（メタデータ） (2024-11-02T14:01:04Z)
Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。 ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文参考訳（メタデータ） (2023-10-16T16:27:06Z)
Offline Policy Evaluation and Optimization under Confounding [35.778917456294046]
構築されたMDPのオフライン政策評価の状況について概説する。一貫性のある値推定が達成不可能な設定を特徴付ける。オフライン政策改善のための新しいアルゴリズムを提案し、局所収束保証を証明する。
論文参考訳（メタデータ） (2022-11-29T20:45:08Z)
GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP, and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文参考訳（メタデータ） (2022-11-03T16:42:40Z)
Offline Reinforcement Learning with Instrumental Variables in Confounded Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文参考訳（メタデータ） (2022-09-18T22:03:55Z)
Targeted Optimal Treatment Regime Learning Using Summary Statistics [12.767669486030352]
我々は、ソースとターゲットの集団が不均一である可能性のあるITR推定問題を考える。我々は、利用可能な要約統計を利用して、所定の対象人口に対してITRを調整する重み付けフレームワークを開発する。具体的には,対象集団の値関数の補正された逆確率重み付き推定器を提案し,最適ITRを推定する。
論文参考訳（メタデータ） (2022-01-17T06:11:31Z)
Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文参考訳（メタデータ） (2021-10-28T17:46:14Z)
Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文参考訳（メタデータ） (2021-06-22T17:58:46Z)
Asymptotic Theory for IV-Based Reinforcement Learning with Potential Endogeneity [7.470941567346781]
データ生成とデータ解析の動的相互作用は、新しいタイプのバイアス、すなわち強化バイアスをもたらすことを示す。本稿では,そのバイアスを補正するために,計器変数(IV)に基づく強化学習(RL)アルゴリズムのクラスを提案する。 IVRLアルゴリズムの最適ポリシを推論するための公式を提供する。
論文参考訳（メタデータ） (2021-03-06T03:57:46Z)
Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文参考訳（メタデータ） (2020-11-09T04:41:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。