Fugu-MT 論文翻訳(概要): Posterior Sampling-based Online Learning for Episodic POMDPs

論文の概要: Posterior Sampling-based Online Learning for Episodic POMDPs

arxiv url: http://arxiv.org/abs/2310.10107v3
Date: Thu, 23 May 2024 22:26:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 23:46:28.602855
Title: Posterior Sampling-based Online Learning for Episodic POMDPs
Title（参考訳）: エピソードPOMDPのための後方サンプリングに基づくオンライン学習
Authors: Dengwang Tang, Dongze Ye, Rahul Jain, Ashutosh Nayyar, Pierluigi Nuzzo,
Abstract要約: 本研究では,遷移モデルと観測モデルが未知のエピソードPOMDPに対するオンライン学習問題を考察する。ポストリアサンプリングに基づくPOMDPのための強化学習アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 5.797837329787459
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Learning in POMDPs is known to be significantly harder than MDPs. In this paper, we consider the online learning problem for episodic POMDPs with unknown transition and observation models. We propose a Posterior Sampling-based reinforcement learning algorithm for POMDPs (PS4POMDPs), which is much simpler and more implementable compared to state-of-the-art optimism-based online learning algorithms for POMDPs. We show that the Bayesian regret of the proposed algorithm scales as the square root of the number of episodes, matching the lower bound, and is polynomial in the other parameters. In a general setting, its regret scales exponentially in the horizon length $H$, and we show that this is inevitable by providing a lower bound. However, when the POMDP is undercomplete and weakly revealing (a common assumption in the recent literature), we establish a polynomial Bayesian regret bound. We finally propose a posterior sampling algorithm for multi-agent POMDPs, and show it too has sublinear regret.
Abstract（参考訳）: POMDPでの学習は、MDPよりもはるかに難しいことが知られている。本稿では,未知の遷移モデルと観測モデルを持つエピソードPOMDPのオンライン学習問題について考察する。本稿では,PS4POMDP(Posterior Sampling-based reinforcement learning algorithm for POMDPs)を提案する。提案したアルゴリズムに対するベイズ的後悔は、各エピソードの平方根としてスケールし、下界と一致し、他のパラメータの多項式であることを示す。一般的な設定では、その後悔は地平線長$H$で指数関数的にスケールする。しかし、POMDPが不完全で弱露呈であるとき(最近の文献でよく見られる仮定)、多項式ベイズ的後悔境界を確立する。最終的に, マルチエージェントPOMDPの後方サンプリングアルゴリズムを提案し, サブ線形後悔も示している。

関連論文リスト

Model-Based and Sample-Efficient AI-Assisted Math Discovery in Sphere Packing [51.30643063554434]
上界の先導手法である三点法は、大高精度半確定プログラム(SDP)の解法に問題を還元する。我々は、SDP構成を、ポリシーが一連の許容成分からSDP定式化を組み立てる逐次決定過程、SDPゲームとして定式化する。従来からある幾何学的問題において,モデルに基づく探索が計算の進歩を推し進めることができることを示す。
論文参考訳（メタデータ） (2025-12-04T14:11:52Z)
Scalable Policy-Based RL Algorithms for POMDPs [6.2229686397601585]
我々は、POMDPモデルを有限状態マルコフ決定プロセス(MDP)に近似することにより、部分観測可能強化学習(PORL)問題を解決するアプローチを検討する。近似誤差はこの履歴の長さとともに指数関数的に減少することを示す。我々の知識を最大限に活用するために、我々の有限時間境界は、真の力学がマルコフ的でない設定に標準的TD学習を適用する際に導入された誤差を明示的に定量化する最初のものである。
論文参考訳（メタデータ） (2025-10-08T00:33:38Z)
Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文参考訳（メタデータ） (2024-06-12T06:41:47Z)
Sample-Efficient Learning of POMDPs with Multiple Observations In Hindsight [105.6882315781987]
本稿では,部分観測可能なマルコフ決定過程(POMDP)における学習のサンプル効率について検討する。「ゲームプレイにおけるローディングのような現実世界の設定に動機付けられて、後視における多重観察と呼ばれる強化されたフィードバックモデルを提案する。」我々は,POMDPの2つのサブクラスに対して,サンプル効率の学習が可能であることを示した。
論文参考訳（メタデータ） (2023-07-06T09:39:01Z)
Learning in POMDPs is Sample-Efficient with Hindsight Observability [36.66596305441365]
POMDPは、幅広い意思決定問題を捉えているが、難易度の結果は、学習が本質的に部分観測可能であるため、単純な設定でも難易度が高いことを示唆している。多くの現実的な問題では、より多くの情報が明らかにされるか、学習プロセスのどこかの時点で計算できる。我々は、学習者が学習中にのみ潜伏状態を明らかにするPOMDPとして設定(setshort)を定式化する。
論文参考訳（メタデータ） (2023-01-31T18:54:36Z)
Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。 POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文参考訳（メタデータ） (2022-10-10T21:11:55Z)
Sublinear Regret for Learning POMDPs [5.675955495285045]
部分的に観測可能なマルコフ決定過程(POMDP)のためのモデルに基づく非割当強化学習について検討する。そこで本研究では,隠れマルコフモデルに対するスペクトル法によるモーメント推定に基づく学習アルゴリズムを提案する。我々は,提案した学習アルゴリズムに対して,$O(T2/3sqrtlog T)$の後悔境界を定め,そこでは$T$が学習の地平線となる。
論文参考訳（メタデータ） (2021-07-08T06:59:39Z)
A Fully Problem-Dependent Regret Lower Bound for Finite-Horizon MDPs [117.82903457289584]
有限水平マルコフ決定過程(MDPs)における新たな問題依存的下界を導出する。我々の下界は一般の場合よりもかなり小さく、最小の作用ギャップでスケールしないことが示される。この最後の結果($poly(H)$の条件で、$H$は地平線である)は、楽観的なアルゴリズムのポリシーギャップに基づいて、後悔の意を表すことによって達成可能であることを示す。
論文参考訳（メタデータ） (2021-06-24T13:46:09Z)
Online Learning for Unknown Partially Observable MDPs [11.458853556386797]
遷移モデルが未知の無限水平平均コストPMDPを観測モデルとして検討する。自然後サンプリングに基づく強化学習アルゴリズム(POMDP-PSRL)を提案し、$T$が時空である場合に$O(T2/3)$後悔を達成することを示した。
論文参考訳（メタデータ） (2021-02-25T03:36:13Z)
RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討 LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文参考訳（メタデータ） (2021-02-09T16:49:58Z)
Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文参考訳（メタデータ） (2020-06-22T17:58:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。