論文の概要: Statistical Tractability of Off-policy Evaluation of History-dependent Policies in POMDPs
- arxiv url: http://arxiv.org/abs/2503.01134v1
- Date: Mon, 03 Mar 2025 03:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:23:02.252207
- Title: Statistical Tractability of Off-policy Evaluation of History-dependent Policies in POMDPs
- Title(参考訳): POMDPにおける歴史に依存した政策の非政治的評価の統計的トラクタビリティ
- Authors: Yuheng Zhang, Nan Jiang,
- Abstract要約: 大規模な観測空間を有する部分観測可能決定プロセス(POMDP)における外部政治評価(OPE)について検討する。
我々は,歴史に依存したポリシーのモデルフリーなOPEに対して,いくつかの設定で情報理論の難しさを証明した。
自然モデルに基づくマルコフアルゴリズムにより、いくつかの硬さを回避できることが示される。
- 参考スコア(独自算出の注目度): 11.829110453985228
- License:
- Abstract: We investigate off-policy evaluation (OPE), a central and fundamental problem in reinforcement learning (RL), in the challenging setting of Partially Observable Markov Decision Processes (POMDPs) with large observation spaces. Recent works of Uehara et al. (2023a); Zhang & Jiang (2024) developed a model-free framework and identified important coverage assumptions (called belief and outcome coverage) that enable accurate OPE of memoryless policies with polynomial sample complexities, but handling more general target policies that depend on the entire observable history remained an open problem. In this work, we prove information-theoretic hardness for model-free OPE of history-dependent policies in several settings, characterized by additional assumptions imposed on the behavior policy (memoryless vs. history-dependent) and/or the state-revealing property of the POMDP (single-step vs. multi-step revealing). We further show that some hardness can be circumvented by a natural model-based algorithm -- whose analysis has surprisingly eluded the literature despite the algorithm's simplicity -- demonstrating provable separation between model-free and model-based OPE in POMDPs.
- Abstract(参考訳): 大規模観測空間を有する部分観測可能なマルコフ決定過程(POMDP)の挑戦的設定において、強化学習(RL)の中心的かつ基礎的な問題であるオフ・ポリチック評価(OPE)について検討する。
Uehara et al (2023a) や Zhang & Jiang (2024) の最近の研究は、モデルフリーなフレームワークを開発し、多項式サンプルの複雑さによるメモリレスポリシーの正確なOPEを可能にする重要なカバレッジ仮定(信念と結果カバレッジと呼ばれる)を特定したが、観測可能な歴史全体に依存するより一般的なターゲットポリシーを扱うことは、未解決の問題のままであった。
本研究では,POMDPの行動ポリシー(メモリレス対履歴依存)および/または状態回復特性(シングルステップ対マルチステップ露光)に課される追加の仮定を特徴とする,履歴依存ポリシーのモデルフリーなOPEに対する情報理論上の難しさを,いくつかの設定で証明する。
さらに、自然モデルベースのアルゴリズム -- アルゴリズムの単純さにもかかわらず、解析が驚くほど文学を損なう -- によって、いくつかの困難さを回避できることを示し、POMDPにおけるモデルフリーとモデルベースOPEの明確な分離を示す。
関連論文リスト
- Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Bayesian regularization of empirical MDPs [11.3458118258705]
ベイズ的な視点を採り、マルコフ決定プロセスの目的関数を事前情報で正規化する。
提案するアルゴリズムは,大規模オンラインショッピングストアの合成シミュレーションと実世界の検索ログに基づいて評価する。
論文 参考訳(メタデータ) (2022-08-03T22:02:50Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Counterfactual Learning of Stochastic Policies with Continuous Actions [42.903292639112536]
コンテクストとアクションを融合したカーネルを組み込んだモデリング戦略を導入する。
対実学習の最適化の側面が重要であることを実証的に示す。
実世界のログシステムにおけるオフラインポリシーの評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-04-22T07:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。