論文の概要: Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders
- arxiv url: http://arxiv.org/abs/2007.13893v1
- Date: Mon, 27 Jul 2020 22:19:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 07:35:54.868618
- Title: Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders
- Title(参考訳): 潜在共同創設者による無限ホライゾン強化学習におけるオフポリシー評価
- Authors: Andrew Bennett, Nathan Kallus, Lihong Li, Ali Mousavi
- Abstract要約: 無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
- 参考スコア(独自算出の注目度): 62.54431888432302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation (OPE) in reinforcement learning is an important problem
in settings where experimentation is limited, such as education and healthcare.
But, in these very same settings, observed actions are often confounded by
unobserved variables making OPE even more difficult. We study an OPE problem in
an infinite-horizon, ergodic Markov decision process with unobserved
confounders, where states and actions can act as proxies for the unobserved
confounders. We show how, given only a latent variable model for states and
actions, policy value can be identified from off-policy data. Our method
involves two stages. In the first, we show how to use proxies to estimate
stationary distribution ratios, extending recent work on breaking the curse of
horizon to the confounded setting. In the second, we show optimal balancing can
be combined with such learned ratios to obtain policy value while avoiding
direct modeling of reward functions. We establish theoretical guarantees of
consistency, and benchmark our method empirically.
- Abstract(参考訳): 強化学習におけるオフ政治評価(OPE)は、教育や医療など実験が限られている環境では重要な問題である。
しかし、この全く同じ設定では、観測されたアクションは観測されていない変数によって結合され、opeをさらに困難にすることが多い。
我々は,保全されていない共同設立者によるマルコフ決定プロセスにおいて,状態と行動が保護されていない共同設立者のプロキシとして機能する,無限水平エルゴディックなOPE問題を研究する。
状態とアクションの潜在変数モデルを考えると、ポリシーの価値がオフポリシーデータからどのように識別されるかを示す。
我々の方法には2つの段階がある。
第一に,固定分布比の推定にプロキシを使用する方法を示し,近年の地平線の呪いを両立した設定に拡張した。
第2に、報酬関数の直接モデリングを回避しつつ、最適バランスをそのような学習率と組み合わせてポリシー値を得ることを示す。
一貫性の理論的保証を確立し,提案手法を実証的に評価する。
関連論文リスト
- Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文 参考訳(メタデータ) (2022-11-04T18:00:02Z) - Online Learning with Off-Policy Feedback [18.861989132159945]
本研究では,オフポリシーフィードバックと呼ばれる部分的可観測性モデルの下で,対向的帯域幅問題におけるオンライン学習の問題点について検討する。
我々は,任意のコンパレータポリシーと行動ポリシーのミスマッチという自然な概念でスケールする後悔境界を保証するアルゴリズムのセットを提案する。
論文 参考訳(メタデータ) (2022-07-18T21:57:16Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - A Spectral Approach to Off-Policy Evaluation for POMDPs [8.613667867961034]
部分的に観察可能なマルコフ決定過程における非政治評価について考察する。
この問題の先行研究は、隠れ状態の1段階の観測可能プロキシに基づく因果同定戦略を用いている。
本研究では,スペクトル法と一段階のプロキシを過去と未来の両方に拡張することで,この要件を緩和する。
論文 参考訳(メタデータ) (2021-09-22T03:36:51Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。