Fugu-MT 論文翻訳(概要): Prospective Side Information for Latent MDPs

論文の概要: Prospective Side Information for Latent MDPs

arxiv url: http://arxiv.org/abs/2310.07596v1
Date: Wed, 11 Oct 2023 15:37:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 02:10:40.899920
Title: Prospective Side Information for Latent MDPs
Title（参考訳）: 潜在MDPの予見的側面情報
Authors: Jeongyeol Kwon, Yonathan Efroni, Shie Mannor, Constantine Caramanis
Abstract要約: 本報告では,各エピソードの開始時に,エージェントが付加的,弱く露呈する情報を受信した場合に,予測側情報を用いたLMDPのクラスについて検討する。驚くべきことに、この問題は、部分的に観察された環境のために設計された現代の設定やアルゴリズムによって捉えられていない。すると、サンプル効率の良いアルゴリズムは、標準の$Omega(K2/3)$-regretとは対照的に、少なくとも$Omega(K2/3)$-regretを被ることを確立し、一致する上限を持つアルゴリズムを設計する。
参考スコア（独自算出の注目度）: 80.00842638151558
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In many interactive decision-making settings, there is latent and unobserved information that remains fixed. Consider, for example, a dialogue system, where complete information about a user, such as the user's preferences, is not given. In such an environment, the latent information remains fixed throughout each episode, since the identity of the user does not change during an interaction. This type of environment can be modeled as a Latent Markov Decision Process (LMDP), a special instance of Partially Observed Markov Decision Processes (POMDPs). Previous work established exponential lower bounds in the number of latent contexts for the LMDP class. This puts forward a question: under which natural assumptions a near-optimal policy of an LMDP can be efficiently learned? In this work, we study the class of LMDPs with {\em prospective side information}, when an agent receives additional, weakly revealing, information on the latent context at the beginning of each episode. We show that, surprisingly, this problem is not captured by contemporary settings and algorithms designed for partially observed environments. We then establish that any sample efficient algorithm must suffer at least $\Omega(K^{2/3})$-regret, as opposed to standard $\Omega(\sqrt{K})$ lower bounds, and design an algorithm with a matching upper bound.
Abstract（参考訳）: 多くのインタラクティブな意思決定設定では、まだ修正されていない情報が潜んでいる。例えば、ユーザの好みなどのユーザに関する完全な情報が与えられない対話システムを考える。このような環境では、インタラクション中にユーザのアイデンティティが変化しないため、潜在情報が各エピソードを通じて固定される。このタイプの環境は、部分的に観測されたマルコフ決定プロセス(POMDP)の特別な例である潜在マルコフ決定プロセス(LMDP)としてモデル化することができる。以前の研究では、lmdpクラスの潜在コンテキストの数で指数関数的に下限を設定した。このことは、どの自然の仮定がLMDPの準最適政策を効率的に学習できるのかという疑問を提起する。本研究は,エージェントが各エピソードの開始時の潜伏状況に関する情報を付加的・弱露呈する際の,予測側情報を用いたLMDPのクラスについて検討する。驚くべきことに、この問題は部分的に観測された環境向けに設計された現代の設定やアルゴリズムでは捉えられていない。すると、任意のサンプル効率アルゴリズムは、標準の$\Omega(K^{2/3})$-regretとは対照的に、少なくとも$\Omega(K^{2/3})$-regretを被ることを確立し、一致する上限を持つアルゴリズムを設計する。

関連論文リスト

Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文参考訳（メタデータ） (2024-11-05T13:55:52Z)
Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文参考訳（メタデータ） (2024-06-12T06:41:47Z)
RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文参考訳（メタデータ） (2024-06-03T14:51:27Z)
User-Level Differential Privacy With Few Examples Per User [73.81862394073308]
サンプルスカース方式では,各ユーザが少数のサンプルしか持たないため,以下の結果が得られる。近似DPについては,任意の項目レベルDPアルゴリズムをユーザレベルDPアルゴリズムに汎用変換する。ユーザレベル設定に指数的機構(McSherry, Talwar FOCS 2007)を適用するための簡単な手法を提案する。
論文参考訳（メタデータ） (2023-09-21T21:51:55Z)
Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文参考訳（メタデータ） (2023-06-05T03:57:16Z)
ChronosPerseus: Randomized Point-based Value Iteration with Importance Sampling for POSMDPs [2.3204178451683264]
強化学習では、エージェントはマルコフ決定プロセス(MDP)でモデル化された環境をうまく利用した。多くの問題領域では、エージェントはその後の決定までうるさい観察やランダムな時間に悩まされることがある。本稿では,部分観測可能な半マルコフ決定プロセス (POSMDP) が未知の時間的側面に対処するのに有効であることを示す。
論文参考訳（メタデータ） (2022-07-16T03:31:47Z)
BATS: Best Action Trajectory Stitching [22.75880303352508]
本稿では,データセットに新たな遷移を加えることで,ログデータ上に表形式のマルコフ決定プロセス(MDP)を形成するアルゴリズムを提案する。この性質により、値関数の上限と下限を適切な距離の測度に設定できることを示す。本稿では,提案アルゴリズムが生成したMDPの最適ポリシーを単純にクローンする動作が,この問題を回避する一例を示す。
論文参考訳（メタデータ） (2022-04-26T01:48:32Z)
RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討 LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文参考訳（メタデータ） (2021-02-09T16:49:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。