論文の概要: Offline Policy Evaluation and Optimization under Confounding
- arxiv url: http://arxiv.org/abs/2211.16583v3
- Date: Mon, 12 Jun 2023 20:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 18:03:46.031395
- Title: Offline Policy Evaluation and Optimization under Confounding
- Title(参考訳): コンファウンディング時のオフライン政策評価と最適化
- Authors: Chinmaya Kausik, Yangyi Lu, Kevin Tan, Yixin Wang, Ambuj Tewari
- Abstract要約: 従来のオフラインRLの手法をコンバウンディングの存在下で使用すると、決定が貧弱になり、ポリシーが悪くなる可能性がある。
提案手法は,MDPにおけるオフライン政策評価の実態を図解し,その時間進化に基づくコンバウンディングの仮定を識別するものである。
本アルゴリズムをグリッドワールド上で実験的に評価し,敗血症患者を管理するためのシミュレートされた医療環境について検討した。
- 参考スコア(独自算出の注目度): 29.449704878490632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating and optimizing policies in the presence of unobserved confounders
is a problem of growing interest in offline reinforcement learning. Using
conventional methods for offline RL in the presence of confounding can not only
lead to poor decisions and poor policies, but can also have disastrous effects
in critical applications such as healthcare and education. We map out the
landscape of offline policy evaluation for confounded MDPs, distinguishing
assumptions on confounding based on their time-evolution and effect on the
data-collection policies. We determine when consistent value estimates are not
achievable, providing and discussing algorithms to estimate lower bounds with
guarantees in those cases. When consistent estimates are achievable, we provide
sample complexity guarantees. We also present new algorithms for offline policy
improvement and prove local convergence guarantees. Finally, we experimentally
evaluate our algorithms on gridworld and a simulated healthcare setting of
managing sepsis patients. We note that in gridworld, our model-based method
provides tighter lower bounds than existing methods, while in the sepsis
simulator, our methods significantly outperform confounder-oblivious
benchmarks.
- Abstract(参考訳): 監視されていない共同創設者の存在下でのポリシーの評価と最適化は、オフライン強化学習への関心が高まっている。
従来のオフラインRLの手法をコンバウンディングの存在下で使用すると、不適切な判断や政策が悪化するだけでなく、医療や教育といった重要な応用において破滅的な影響を及ぼす可能性がある。
構築されたMDPのオフライン政策評価の展望を図示し、その時間進化とデータ収集ポリシーへの影響に基づいて、コンバウンディングの仮定を区別する。
一貫性のある値推定が達成できないかどうかを判断し、それらの場合の保証とともに下位境界を推定するアルゴリズムを提供し、議論する。
一貫した見積もりが達成可能であれば、サンプル複雑性保証を提供する。
また,オフラインポリシー改善のための新しいアルゴリズムを提案し,局所収束保証を証明する。
最後に,gridworldのアルゴリズムを実験的に評価し,敗血症患者の管理をシミュレートした。
グリッドワールドでは,モデルに基づく手法が既存手法よりも厳密な境界を提供し,セプシスシミュレータでは,提案手法が共同設立・公開ベンチマークを著しく上回っていることに留意する。
関連論文リスト
- Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Matrix Estimation for Offline Reinforcement Learning with Low-Rank
Structure [10.968373699696455]
エージェントが環境と相互作用せず、行動ポリシーを用いて収集されたオフラインデータに頼らなければならないオフライン強化学習(RL)について考察する。
事前の作業は、評価対象方針が行動方針によってカバーされている場合に、政策評価を保証する。
そこで本稿では,低ランク構造を利用したオフラインポリシ評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-24T23:49:06Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。