論文の概要: A Spectral Approach to Off-Policy Evaluation for POMDPs
- arxiv url: http://arxiv.org/abs/2109.10502v1
- Date: Wed, 22 Sep 2021 03:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 13:42:55.292507
- Title: A Spectral Approach to Off-Policy Evaluation for POMDPs
- Title(参考訳): POMDPのオフポリシィ評価へのスペクトル的アプローチ
- Authors: Yash Nair and Nan Jiang
- Abstract要約: 部分的に観察可能なマルコフ決定過程における非政治評価について考察する。
この問題の先行研究は、隠れ状態の1段階の観測可能プロキシに基づく因果同定戦略を用いている。
本研究では,スペクトル法と一段階のプロキシを過去と未来の両方に拡張することで,この要件を緩和する。
- 参考スコア(独自算出の注目度): 8.613667867961034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider off-policy evaluation (OPE) in Partially Observable Markov
Decision Processes, where the evaluation policy depends only on observable
variables but the behavior policy depends on latent states (Tennenholtz et al.
(2020a)). Prior work on this problem uses a causal identification strategy
based on one-step observable proxies of the hidden state, which relies on the
invertibility of certain one-step moment matrices. In this work, we relax this
requirement by using spectral methods and extending one-step proxies both into
the past and future. We empirically compare our OPE methods to existing ones
and demonstrate their improved prediction accuracy and greater generality.
Lastly, we derive a separate Importance Sampling (IS) algorithm which relies on
rank, distinctness, and positivity conditions, and not on the strict
sufficiency conditions of observable trajectories with respect to the reward
and hidden-state structure required by Tennenholtz et al. (2020a).
- Abstract(参考訳): 評価方針は可観測変数のみに依存するが,行動方針は潜伏状態に依存する(Tennenholtz et al. (2020a))。
この問題の先行研究は、特定の1ステップモーメント行列の可逆性に依存する隠れ状態の1ステップ観測可能プロキシに基づく因果同定戦略を用いている。
本研究では,スペクトル法を用いてこの要件を緩和し,一段階のプロキシを過去と未来の両方に拡張する。
我々は,既存の手法と比較し,予測精度の向上と汎用性の向上を実証する。
最後に,tennenholtz et al. (2020a) が要求する報酬と隠れ状態構造に関して,観測可能な軌道の厳密な十分条件に依存せず,ランク,識別性,肯定性条件に依存する分離重要サンプリング (is) アルゴリズムを導出する。
関連論文リスト
- Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Provably Efficient Reinforcement Learning in Partially Observable
Dynamical Systems [97.12538243736705]
関数近似を用いた部分観測可能力学系の強化学習について検討する。
本稿では,POMDP,LQG,予測状態表現 (Predictive State Representations,PSR) などのモデルや,POMDPのHilbert Space Embeddingsや観測可能なPOMDPを遅延低ランク遷移で組み込むことのできる,汎用的な新しいテクスタイト(Partially Observar Bilinear Actor-Critic)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-24T00:27:42Z) - A Minimax Learning Approach to Off-Policy Evaluation in Partially
Observable Markov Decision Processes [31.215206208622728]
部分観測可能なマルコフ決定過程(POMDP)におけるオフ・ポリティクス評価(OPE)の検討
既存の手法は、計測されていない共同創設者の存在における大きなバイアスや、連続的あるいは大規模な観測/状態空間の設定における大きなばらつきに悩まされる。
提案手法は,POMDPにおいて,目的ポリシー値と観測データ分布をリンクするブリッジ関数を導入することで,提案手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T15:52:24Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Off-Policy Evaluation in Partially Observed Markov Decision Processes
under Sequential Ignorability [8.388782503421504]
逐次的無知下での動的処理規則の非政治的評価を考察する。
我々は,POMDPにおける非政治評価が,(十分に観察された)マルコフ決定過程における非政治評価よりも厳密であることを示す。
論文 参考訳(メタデータ) (2021-10-24T03:35:23Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。