論文の概要: Prospective Side Information for Latent MDPs
- arxiv url: http://arxiv.org/abs/2310.07596v1
- Date: Wed, 11 Oct 2023 15:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 02:10:40.899920
- Title: Prospective Side Information for Latent MDPs
- Title(参考訳): 潜在MDPの予見的側面情報
- Authors: Jeongyeol Kwon, Yonathan Efroni, Shie Mannor, Constantine Caramanis
- Abstract要約: 本報告では,各エピソードの開始時に,エージェントが付加的,弱く露呈する情報を受信した場合に,予測側情報を用いたLMDPのクラスについて検討する。
驚くべきことに、この問題は、部分的に観察された環境のために設計された現代の設定やアルゴリズムによって捉えられていない。
すると、サンプル効率の良いアルゴリズムは、標準の$Omega(K2/3)$-regretとは対照的に、少なくとも$Omega(K2/3)$-regretを被ることを確立し、一致する上限を持つアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 80.00842638151558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many interactive decision-making settings, there is latent and unobserved
information that remains fixed. Consider, for example, a dialogue system, where
complete information about a user, such as the user's preferences, is not
given. In such an environment, the latent information remains fixed throughout
each episode, since the identity of the user does not change during an
interaction. This type of environment can be modeled as a Latent Markov
Decision Process (LMDP), a special instance of Partially Observed Markov
Decision Processes (POMDPs). Previous work established exponential lower bounds
in the number of latent contexts for the LMDP class. This puts forward a
question: under which natural assumptions a near-optimal policy of an LMDP can
be efficiently learned? In this work, we study the class of LMDPs with {\em
prospective side information}, when an agent receives additional, weakly
revealing, information on the latent context at the beginning of each episode.
We show that, surprisingly, this problem is not captured by contemporary
settings and algorithms designed for partially observed environments. We then
establish that any sample efficient algorithm must suffer at least
$\Omega(K^{2/3})$-regret, as opposed to standard $\Omega(\sqrt{K})$ lower
bounds, and design an algorithm with a matching upper bound.
- Abstract(参考訳): 多くのインタラクティブな意思決定設定では、まだ修正されていない情報が潜んでいる。
例えば、ユーザの好みなどのユーザに関する完全な情報が与えられない対話システムを考える。
このような環境では、インタラクション中にユーザのアイデンティティが変化しないため、潜在情報が各エピソードを通じて固定される。
このタイプの環境は、部分的に観測されたマルコフ決定プロセス(POMDP)の特別な例である潜在マルコフ決定プロセス(LMDP)としてモデル化することができる。
以前の研究では、lmdpクラスの潜在コンテキストの数で指数関数的に下限を設定した。
このことは、どの自然の仮定がLMDPの準最適政策を効率的に学習できるのかという疑問を提起する。
本研究は,エージェントが各エピソードの開始時の潜伏状況に関する情報を付加的・弱露呈する際の,予測側情報を用いたLMDPのクラスについて検討する。
驚くべきことに、この問題は部分的に観測された環境向けに設計された現代の設定やアルゴリズムでは捉えられていない。
すると、任意のサンプル効率アルゴリズムは、標準の$\Omega(K^{2/3})$-regretとは対照的に、少なくとも$\Omega(K^{2/3})$-regretを被ることを確立し、一致する上限を持つアルゴリズムを設計する。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - User-Level Differential Privacy With Few Examples Per User [73.81862394073308]
サンプルスカース方式では,各ユーザが少数のサンプルしか持たないため,以下の結果が得られる。
近似DPについては,任意の項目レベルDPアルゴリズムをユーザレベルDPアルゴリズムに汎用変換する。
ユーザレベル設定に指数的機構(McSherry, Talwar FOCS 2007)を適用するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-09-21T21:51:55Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - ChronosPerseus: Randomized Point-based Value Iteration with Importance
Sampling for POSMDPs [2.3204178451683264]
強化学習では、エージェントはマルコフ決定プロセス(MDP)でモデル化された環境をうまく利用した。
多くの問題領域では、エージェントはその後の決定までうるさい観察やランダムな時間に悩まされることがある。
本稿では,部分観測可能な半マルコフ決定プロセス (POSMDP) が未知の時間的側面に対処するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-07-16T03:31:47Z) - BATS: Best Action Trajectory Stitching [22.75880303352508]
本稿では,データセットに新たな遷移を加えることで,ログデータ上に表形式のマルコフ決定プロセス(MDP)を形成するアルゴリズムを提案する。
この性質により、値関数の上限と下限を適切な距離の測度に設定できることを示す。
本稿では,提案アルゴリズムが生成したMDPの最適ポリシーを単純にクローンする動作が,この問題を回避する一例を示す。
論文 参考訳(メタデータ) (2022-04-26T01:48:32Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。