論文の概要: Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2002.04518v2
- Date: Mon, 13 Jul 2020 04:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 01:54:43.452752
- Title: Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning
- Title(参考訳): 無限ホライゾン強化学習におけるコンファウンディング・ロバスト・ポリシーの評価
- Authors: Nathan Kallus and Angela Zhou
- Abstract要約: 教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
- 参考スコア(独自算出の注目度): 70.01650994156797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation of sequential decision policies from observational data
is necessary in applications of batch reinforcement learning such as education
and healthcare. In such settings, however, unobserved variables confound
observed actions, rendering exact evaluation of new policies impossible, i.e.,
unidentifiable. We develop a robust approach that estimates sharp bounds on the
(unidentifiable) value of a given policy in an infinite-horizon problem given
data from another policy with unobserved confounding, subject to a sensitivity
model. We consider stationary or baseline unobserved confounding and compute
bounds by optimizing over the set of all stationary state-occupancy ratios that
agree with a new partially identified estimating equation and the sensitivity
model. We prove convergence to the sharp bounds as we collect more confounded
data. Although checking set membership is a linear program, the support
function is given by a difficult nonconvex optimization problem. We develop
approximations based on nonconvex projected gradient descent and demonstrate
the resulting bounds empirically.
- Abstract(参考訳): 教育や医療といったバッチ強化学習の応用には,観察データからの逐次決定政策のオフポリシー評価が不可欠である。
しかし、そのような設定では、観測されていない変数は観察された動作を混同し、新しいポリシーの正確な評価が不可能である。
感度モデルに従えば,非可観測性を持つ他のポリシーのデータから与えられた無限ホライゾン問題において,与えられたポリシーの(同定不能な)値の鋭い境界を推定するロバストな手法を開発した。
我々は,新しい部分的に同定された推定式と感度モデルに一致する定常状態占有率全体の集合を最適化することにより,定常あるいはベースラインの非観測結合と計算境界を考える。
結束したデータを集めることで、鋭い境界への収束を証明します。
チェックセットメンバーシップは線形プログラムであるが、サポート関数は難しい非凸最適化問題によって与えられる。
我々は,非凸射影勾配勾配に基づく近似を開発し,結果の境界を実証的に示す。
関連論文リスト
- High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Matrix Estimation for Offline Reinforcement Learning with Low-Rank
Structure [10.968373699696455]
エージェントが環境と相互作用せず、行動ポリシーを用いて収集されたオフラインデータに頼らなければならないオフライン強化学習(RL)について考察する。
事前の作業は、評価対象方針が行動方針によってカバーされている場合に、政策評価を保証する。
そこで本稿では,低ランク構造を利用したオフラインポリシ評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-24T23:49:06Z) - Offline Policy Evaluation and Optimization under Confounding [35.778917456294046]
構築されたMDPのオフライン政策評価の状況について概説する。
一貫性のある値推定が達成不可能な設定を特徴付ける。
オフライン政策改善のための新しいアルゴリズムを提案し、局所収束保証を証明する。
論文 参考訳(メタデータ) (2022-11-29T20:45:08Z) - A Sharp Characterization of Linear Estimators for Offline Policy
Evaluation [33.37672297925897]
オフライン政策評価は 強化学習の基本的な統計問題です
古典的手法に必要で十分である単純な制御理論と線形代数的条件を同定する。
この結果から, オフライン政策評価のための線形推定器の挙動の全体像が得られた。
論文 参考訳(メタデータ) (2022-03-08T17:52:57Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。