論文の概要: Future-Dependent Value-Based Off-Policy Evaluation in POMDPs
- arxiv url: http://arxiv.org/abs/2207.13081v2
- Date: Tue, 14 Nov 2023 22:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 21:15:25.611204
- Title: Future-Dependent Value-Based Off-Policy Evaluation in POMDPs
- Title(参考訳): pomdpsにおける将来依存価値に基づくオフポリシー評価
- Authors: Masatoshi Uehara, Haruka Kiyohara, Andrew Bennett, Victor
Chernozhukov, Nan Jiang, Nathan Kallus, Chengchun Shi, Wen Sun
- Abstract要約: 一般関数近似を用いた部分観測可能なMDP(POMDP)のオフ・ポリティクス評価(OPE)について検討した。
我々は、将来のプロキシを入力として取り込む将来依存値関数を導入し、新しいモデルフリーなOPE法を開発した。
我々は,本手法をダイナミックス学習に拡張し,POMDPにおけるアプローチとよく知られたスペクトル学習手法の関連性を確立する。
- 参考スコア(独自算出の注目度): 67.21319339512699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study off-policy evaluation (OPE) for partially observable MDPs (POMDPs)
with general function approximation. Existing methods such as sequential
importance sampling estimators and fitted-Q evaluation suffer from the curse of
horizon in POMDPs. To circumvent this problem, we develop a novel model-free
OPE method by introducing future-dependent value functions that take future
proxies as inputs. Future-dependent value functions play similar roles as
classical value functions in fully-observable MDPs. We derive a new Bellman
equation for future-dependent value functions as conditional moment equations
that use history proxies as instrumental variables. We further propose a
minimax learning method to learn future-dependent value functions using the new
Bellman equation. We obtain the PAC result, which implies our OPE estimator is
consistent as long as futures and histories contain sufficient information
about latent states, and the Bellman completeness. Finally, we extend our
methods to learning of dynamics and establish the connection between our
approach and the well-known spectral learning methods in POMDPs.
- Abstract(参考訳): 一般関数近似を用いた部分観測可能なMDP(POMDP)のオフ・ポリティクス評価(OPE)について検討した。
逐次重要サンプリング推定器や適合Q評価などの既存の手法は、PMDPの水平方向の呪いに悩まされている。
この問題を回避するために,将来のプロキシを入力として取り込む将来依存値関数を導入し,新しいモデルフリーなOPE手法を開発した。
将来の依存値関数は、完全に観測可能なMDPにおける古典値関数と同じような役割を果たす。
歴史プロキシをインストゥルメンタル変数として用いる条件モーメント方程式として,未来依存値関数に対する新しいベルマン方程式を導出する。
さらに,新しいベルマン方程式を用いて将来依存値関数を学習するミニマックス学習法を提案する。
PACの結果は,将来や歴史が潜伏状態やベルマン完全性に関する十分な情報を含む限り,OPE推定器は一貫していることを示す。
最後に,本手法をダイナミクスの学習に拡張し,そのアプローチとpomdpsにおけるよく知られたスペクトル学習手法との関係を確立する。
関連論文リスト
- On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation [11.829110453985228]
我々は地平線への指数的依存を避けるための推定器を開発する。
本稿では,POMDPの構造に合わせた新しいカバレッジ仮定を発見する。
副産物として、我々の分析は相補的な性質を持つ新しいアルゴリズムの発見にも繋がる。
論文 参考訳(メタデータ) (2024-02-22T17:00:50Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Provably Efficient Reinforcement Learning in Partially Observable
Dynamical Systems [97.12538243736705]
関数近似を用いた部分観測可能力学系の強化学習について検討する。
本稿では,POMDP,LQG,予測状態表現 (Predictive State Representations,PSR) などのモデルや,POMDPのHilbert Space Embeddingsや観測可能なPOMDPを遅延低ランク遷移で組み込むことのできる,汎用的な新しいテクスタイト(Partially Observar Bilinear Actor-Critic)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-24T00:27:42Z) - A Minimax Learning Approach to Off-Policy Evaluation in Partially
Observable Markov Decision Processes [31.215206208622728]
部分観測可能なマルコフ決定過程(POMDP)におけるオフ・ポリティクス評価(OPE)の検討
既存の手法は、計測されていない共同創設者の存在における大きなバイアスや、連続的あるいは大規模な観測/状態空間の設定における大きなばらつきに悩まされる。
提案手法は,POMDPにおいて,目的ポリシー値と観測データ分布をリンクするブリッジ関数を導入することで,提案手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T15:52:24Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。