論文の概要: RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2406.01389v1
- Date: Mon, 3 Jun 2024 14:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:39:57.236555
- Title: RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation
- Title(参考訳): 潜在MDPにおけるRLはトラクタブルである:オフ・プライシ・アセスメントによるオンライン保証
- Authors: Jeongyeol Kwon, Shie Mannor, Constantine Caramanis, Yonathan Efroni,
- Abstract要約: 遅延マルコフ決定過程 (LMDP) について検討し, 対話開始時に潜時変数が選択され, エージェントに開示されない。
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 73.2390735383842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world decision problems there is partially observed, hidden or latent information that remains fixed throughout an interaction. Such decision problems can be modeled as Latent Markov Decision Processes (LMDPs), where a latent variable is selected at the beginning of an interaction and is not disclosed to the agent. In the last decade, there has been significant progress in solving LMDPs under different structural assumptions. However, for general LMDPs, there is no known learning algorithm that provably matches the existing lower bound~\cite{kwon2021rl}. We introduce the first sample-efficient algorithm for LMDPs without any additional structural assumptions. Our result builds off a new perspective on the role of off-policy evaluation guarantees and coverage coefficients in LMDPs, a perspective, that has been overlooked in the context of exploration in partially observed environments. Specifically, we establish a novel off-policy evaluation lemma and introduce a new coverage coefficient for LMDPs. Then, we show how these can be used to derive near-optimal guarantees of an optimistic exploration algorithm. These results, we believe, can be valuable for a wide range of interactive learning problems beyond LMDPs, and especially, for partially observed environments.
- Abstract(参考訳): 多くの実世界の決定問題では、部分的に観察された、隠された、あるいは潜伏した情報が、相互作用を通して固定されている。
このような決定問題は、遅延マルコフ決定過程(LMDP)としてモデル化することができ、遅延変数は相互作用の開始時に選択され、エージェントには開示されない。
過去10年間で、異なる構造的仮定の下でのLMDPの解法は著しく進歩した。
しかし、一般のLMDPでは、既存の下界~\cite{kwon2021rl}と確実に一致するような学習アルゴリズムは存在しない。
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
本研究は、LMDPにおける外部評価保証とカバレッジ係数の役割に関する新たな視点を、部分的に観察された環境における探索の文脈で見落としている視点から構築したものである。
具体的には,新たな非政治評価レムマを確立し,LMDPに対する新しいカバレッジ係数を導入する。
次に,これらの手法を用いて,楽観的な探索アルゴリズムの最適に近い保証を導出する方法を示す。
これらの結果は,LMDPを超えた幅広い対話型学習問題,特に部分的に観察された環境において有用であると考えられる。
関連論文リスト
- Prospective Side Information for Latent MDPs [80.00842638151558]
本報告では,各エピソードの開始時に,エージェントが付加的,弱く露呈する情報を受信した場合に,予測側情報を用いたLMDPのクラスについて検討する。
驚くべきことに、この問題は、部分的に観察された環境のために設計された現代の設定やアルゴリズムによって捉えられていない。
すると、サンプル効率の良いアルゴリズムは、標準の$Omega(K2/3)$-regretとは対照的に、少なくとも$Omega(K2/3)$-regretを被ることを確立し、一致する上限を持つアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-10-11T15:37:31Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - A Minimax Learning Approach to Off-Policy Evaluation in Partially
Observable Markov Decision Processes [31.215206208622728]
部分観測可能なマルコフ決定過程(POMDP)におけるオフ・ポリティクス評価(OPE)の検討
既存の手法は、計測されていない共同創設者の存在における大きなバイアスや、連続的あるいは大規模な観測/状態空間の設定における大きなばらつきに悩まされる。
提案手法は,POMDPにおいて,目的ポリシー値と観測データ分布をリンクするブリッジ関数を導入することで,提案手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T15:52:24Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。