論文の概要: On the Curses of Future and History in Future-dependent Value Functions
for Off-policy Evaluation
- arxiv url: http://arxiv.org/abs/2402.14703v1
- Date: Thu, 22 Feb 2024 17:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:24:25.789643
- Title: On the Curses of Future and History in Future-dependent Value Functions
for Off-policy Evaluation
- Title(参考訳): オフ政治評価のための将来依存価値関数の将来と歴史の曲線について
- Authors: Yuheng Zhang, Nan Jiang
- Abstract要約: 複雑な観測を伴う部分的に観測可能な環境下での非政治評価について検討した。
我々は,POMDPの構造に合わせた新しいカバレッジ仮定を見いだした。
- 参考スコア(独自算出の注目度): 13.97452698025129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study off-policy evaluation (OPE) in partially observable environments
with complex observations, with the goal of developing estimators whose
guarantee avoids exponential dependence on the horizon. While such estimators
exist for MDPs and POMDPs can be converted to history-based MDPs, their
estimation errors depend on the state-density ratio for MDPs which becomes
history ratios after conversion, an exponential object. Recently, Uehara et al.
(2022) proposed future-dependent value functions as a promising framework to
address this issue, where the guarantee for memoryless policies depends on the
density ratio over the latent state space. However, it also depends on the
boundedness of the future-dependent value function and other related
quantities, which we show could be exponential-in-length and thus erasing the
advantage of the method. In this paper, we discover novel coverage assumptions
tailored to the structure of POMDPs, such as outcome coverage and belief
coverage. These assumptions not only enable polynomial bounds on the
aforementioned quantities, but also lead to the discovery of new algorithms
with complementary properties.
- Abstract(参考訳): 複雑な観測を行う部分観測可能な環境での外部政治評価(OPE)について検討し,地平線への指数的依存を回避できる推定器の開発を目標とする。
このような推定器はMDPやPMDPを履歴ベースのMDPに変換することができるが、その推定誤差は指数的対象である変換後の履歴比となるMDPの状態密度比に依存する。
近年、上原ら(2022年)は、将来依存値関数をこの問題に対処するための有望な枠組みとして提案し、メモリレスポリシーの保証は、潜在状態空間上の密度比に依存する。
しかし、それはまた、将来依存値関数の有界性や他の関連する量にも依存しており、指数関数的長さであることを示し、この方法の利点を根絶している。
本稿では,POMDPの構造に合わせた新しいカバレッジの仮定を見いだし,その結果のカバレッジや信念のカバレッジについて述べる。
これらの仮定は、上記の量に対する多項式境界を可能にするだけでなく、補性を持つ新しいアルゴリズムの発見にも繋がる。
関連論文リスト
- RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Future-Dependent Value-Based Off-Policy Evaluation in POMDPs [67.21319339512699]
一般関数近似を用いた部分観測可能なMDP(POMDP)のオフ・ポリティクス評価(OPE)について検討した。
我々は、将来のプロキシを入力として取り込む将来依存値関数を導入し、新しいモデルフリーなOPE法を開発した。
我々は,本手法をダイナミックス学習に拡張し,POMDPにおけるアプローチとよく知られたスペクトル学習手法の関連性を確立する。
論文 参考訳(メタデータ) (2022-07-26T17:53:29Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - DP-SEP! Differentially Private Stochastic Expectation Propagation [6.662800021628275]
我々は、期待伝播(EP)と呼ばれる近似後部推論アルゴリズムの民営化に興味を持っている。
EPは局所確率に対する近似を反復的に精錬することによって後部を近似し、変動推論(VI)によりそれよりも後部不確実性をもたらすことが知られている。
この問題を解決するために, 予測伝播 (SEP) が提案され, それぞれの確率項から後部への平均効果を捉え, EPに類似した方法で精製する特異な局所因子のみを考察した。
論文 参考訳(メタデータ) (2021-11-25T18:59:35Z) - A Minimax Learning Approach to Off-Policy Evaluation in Partially
Observable Markov Decision Processes [31.215206208622728]
部分観測可能なマルコフ決定過程(POMDP)におけるオフ・ポリティクス評価(OPE)の検討
既存の手法は、計測されていない共同創設者の存在における大きなバイアスや、連続的あるいは大規模な観測/状態空間の設定における大きなばらつきに悩まされる。
提案手法は,POMDPにおいて,目的ポリシー値と観測データ分布をリンクするブリッジ関数を導入することで,提案手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T15:52:24Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。