論文の概要: On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation
- arxiv url: http://arxiv.org/abs/2402.14703v2
- Date: Thu, 03 Oct 2024 06:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:53:32.286280
- Title: On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation
- Title(参考訳): オフ政治評価のための将来依存価値関数の将来と歴史の曲線について
- Authors: Yuheng Zhang, Nan Jiang,
- Abstract要約: 我々は地平線への指数的依存を避けるための推定器を開発する。
本稿では,POMDPの構造に合わせた新しいカバレッジ仮定を発見する。
副産物として、我々の分析は相補的な性質を持つ新しいアルゴリズムの発見にも繋がる。
- 参考スコア(独自算出の注目度): 11.829110453985228
- License:
- Abstract: We study off-policy evaluation (OPE) in partially observable environments with complex observations, with the goal of developing estimators whose guarantee avoids exponential dependence on the horizon. While such estimators exist for MDPs and POMDPs can be converted to history-based MDPs, their estimation errors depend on the state-density ratio for MDPs which becomes history ratios after conversion, an exponential object. Recently, Uehara et al. [2022a] proposed future-dependent value functions as a promising framework to address this issue, where the guarantee for memoryless policies depends on the density ratio over the latent state space. However, it also depends on the boundedness of the future-dependent value function and other related quantities, which we show could be exponential-in-length and thus erasing the advantage of the method. In this paper, we discover novel coverage assumptions tailored to the structure of POMDPs, such as outcome coverage and belief coverage, which enable polynomial bounds on the aforementioned quantities. As a side product, our analyses also lead to the discovery of new algorithms with complementary properties.
- Abstract(参考訳): 複雑な観測を行う部分観測可能な環境下での外部政治評価 (OPE) について検討し, 地平線への指数的依存を回避できる推定器の開発を目標とした。
このような推定器はMDPやPMDPは履歴ベースのMDPに変換できるが、それらの推定誤差は、指数的対象である変換後の履歴比となるMDPの状態密度比に依存する。
近年、上原ら[2022a]は、この問題を解決するための有望な枠組みとして将来依存値関数を提案しており、メモリレスポリシーの保証は、潜伏状態空間の密度比に依存する。
しかし、これはまた、将来の依存値関数の有界性や他の関連する量にも依存しており、これは指数的に長くなる可能性を示し、したがってこの手法の利点を消し去ることになる。
本稿では,先述の量に対する多項式境界を可能にする,結果カバレッジや信念カバレッジといった,POMDPの構造に合わせた新しいカバレッジ仮定を発見する。
副産物として、我々の分析は相補的な性質を持つ新しいアルゴリズムの発見にも繋がる。
関連論文リスト
- RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Future-Dependent Value-Based Off-Policy Evaluation in POMDPs [67.21319339512699]
一般関数近似を用いた部分観測可能なMDP(POMDP)のオフ・ポリティクス評価(OPE)について検討した。
我々は、将来のプロキシを入力として取り込む将来依存値関数を導入し、新しいモデルフリーなOPE法を開発した。
我々は,本手法をダイナミックス学習に拡張し,POMDPにおけるアプローチとよく知られたスペクトル学習手法の関連性を確立する。
論文 参考訳(メタデータ) (2022-07-26T17:53:29Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - DP-SEP! Differentially Private Stochastic Expectation Propagation [6.662800021628275]
我々は、期待伝播(EP)と呼ばれる近似後部推論アルゴリズムの民営化に興味を持っている。
EPは局所確率に対する近似を反復的に精錬することによって後部を近似し、変動推論(VI)によりそれよりも後部不確実性をもたらすことが知られている。
この問題を解決するために, 予測伝播 (SEP) が提案され, それぞれの確率項から後部への平均効果を捉え, EPに類似した方法で精製する特異な局所因子のみを考察した。
論文 参考訳(メタデータ) (2021-11-25T18:59:35Z) - A Minimax Learning Approach to Off-Policy Evaluation in Partially
Observable Markov Decision Processes [31.215206208622728]
部分観測可能なマルコフ決定過程(POMDP)におけるオフ・ポリティクス評価(OPE)の検討
既存の手法は、計測されていない共同創設者の存在における大きなバイアスや、連続的あるいは大規模な観測/状態空間の設定における大きなばらつきに悩まされる。
提案手法は,POMDPにおいて,目的ポリシー値と観測データ分布をリンクするブリッジ関数を導入することで,提案手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T15:52:24Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。