論文の概要: Prospective Side Information for Latent MDPs
- arxiv url: http://arxiv.org/abs/2310.07596v1
- Date: Wed, 11 Oct 2023 15:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 02:10:40.899920
- Title: Prospective Side Information for Latent MDPs
- Title(参考訳): 潜在MDPの予見的側面情報
- Authors: Jeongyeol Kwon, Yonathan Efroni, Shie Mannor, Constantine Caramanis
- Abstract要約: 本報告では,各エピソードの開始時に,エージェントが付加的,弱く露呈する情報を受信した場合に,予測側情報を用いたLMDPのクラスについて検討する。
驚くべきことに、この問題は、部分的に観察された環境のために設計された現代の設定やアルゴリズムによって捉えられていない。
すると、サンプル効率の良いアルゴリズムは、標準の$Omega(K2/3)$-regretとは対照的に、少なくとも$Omega(K2/3)$-regretを被ることを確立し、一致する上限を持つアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 80.00842638151558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many interactive decision-making settings, there is latent and unobserved
information that remains fixed. Consider, for example, a dialogue system, where
complete information about a user, such as the user's preferences, is not
given. In such an environment, the latent information remains fixed throughout
each episode, since the identity of the user does not change during an
interaction. This type of environment can be modeled as a Latent Markov
Decision Process (LMDP), a special instance of Partially Observed Markov
Decision Processes (POMDPs). Previous work established exponential lower bounds
in the number of latent contexts for the LMDP class. This puts forward a
question: under which natural assumptions a near-optimal policy of an LMDP can
be efficiently learned? In this work, we study the class of LMDPs with {\em
prospective side information}, when an agent receives additional, weakly
revealing, information on the latent context at the beginning of each episode.
We show that, surprisingly, this problem is not captured by contemporary
settings and algorithms designed for partially observed environments. We then
establish that any sample efficient algorithm must suffer at least
$\Omega(K^{2/3})$-regret, as opposed to standard $\Omega(\sqrt{K})$ lower
bounds, and design an algorithm with a matching upper bound.
- Abstract(参考訳): 多くのインタラクティブな意思決定設定では、まだ修正されていない情報が潜んでいる。
例えば、ユーザの好みなどのユーザに関する完全な情報が与えられない対話システムを考える。
このような環境では、インタラクション中にユーザのアイデンティティが変化しないため、潜在情報が各エピソードを通じて固定される。
このタイプの環境は、部分的に観測されたマルコフ決定プロセス(POMDP)の特別な例である潜在マルコフ決定プロセス(LMDP)としてモデル化することができる。
以前の研究では、lmdpクラスの潜在コンテキストの数で指数関数的に下限を設定した。
このことは、どの自然の仮定がLMDPの準最適政策を効率的に学習できるのかという疑問を提起する。
本研究は,エージェントが各エピソードの開始時の潜伏状況に関する情報を付加的・弱露呈する際の,予測側情報を用いたLMDPのクラスについて検討する。
驚くべきことに、この問題は部分的に観測された環境向けに設計された現代の設定やアルゴリズムでは捉えられていない。
すると、任意のサンプル効率アルゴリズムは、標準の$\Omega(K^{2/3})$-regretとは対照的に、少なくとも$\Omega(K^{2/3})$-regretを被ることを確立し、一致する上限を持つアルゴリズムを設計する。
関連論文リスト
- User-Level Differential Privacy With Few Examples Per User [73.81862394073308]
サンプルスカース方式では,各ユーザが少数のサンプルしか持たないため,以下の結果が得られる。
近似DPについては,任意の項目レベルDPアルゴリズムをユーザレベルDPアルゴリズムに汎用変換する。
ユーザレベル設定に指数的機構(McSherry, Talwar FOCS 2007)を適用するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-09-21T21:51:55Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with
Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Interval Markov Decision Processes with Continuous Action-Spaces [6.088695984060244]
連続動作型IMDP (caIMDP) を導入し, 遷移確率のバウンダリを動作変数の関数とする。
そこで我々は,caIMDP 上の値が効率的に解ける場合を同定するために,単純な最大問題の形式を利用する。
数値的な例でその結果を実演する。
論文 参考訳(メタデータ) (2022-11-02T16:11:51Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - ChronosPerseus: Randomized Point-based Value Iteration with Importance
Sampling for POSMDPs [2.3204178451683264]
強化学習では、エージェントはマルコフ決定プロセス(MDP)でモデル化された環境をうまく利用した。
多くの問題領域では、エージェントはその後の決定までうるさい観察やランダムな時間に悩まされることがある。
本稿では,部分観測可能な半マルコフ決定プロセス (POSMDP) が未知の時間的側面に対処するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-07-16T03:31:47Z) - BATS: Best Action Trajectory Stitching [22.75880303352508]
本稿では,データセットに新たな遷移を加えることで,ログデータ上に表形式のマルコフ決定プロセス(MDP)を形成するアルゴリズムを提案する。
この性質により、値関数の上限と下限を適切な距離の測度に設定できることを示す。
本稿では,提案アルゴリズムが生成したMDPの最適ポリシーを単純にクローンする動作が,この問題を回避する一例を示す。
論文 参考訳(メタデータ) (2022-04-26T01:48:32Z) - A Fully Problem-Dependent Regret Lower Bound for Finite-Horizon MDPs [117.82903457289584]
有限水平マルコフ決定過程(MDPs)における新たな問題依存的下界を導出する。
我々の下界は一般の場合よりもかなり小さく、最小の作用ギャップでスケールしないことが示される。
この最後の結果($poly(H)$の条件で、$H$は地平線である)は、楽観的なアルゴリズムのポリシーギャップに基づいて、後悔の意を表すことによって達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-24T13:46:09Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。