論文の概要: Periodic agent-state based Q-learning for POMDPs
- arxiv url: http://arxiv.org/abs/2407.06121v1
- Date: Mon, 8 Jul 2024 16:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 14:40:07.183945
- Title: Periodic agent-state based Q-learning for POMDPs
- Title(参考訳): 周期的エージェント状態に基づくPMDPのQ-ラーニング
- Authors: Amit Sinha, Mathieu Geist, Aditya Mahajan,
- Abstract要約: 広く使われている代替手段は、観測履歴のモデルのない周期的に更新可能な機能であるエージェント状態を使用することである。
本稿では,エージェント状態に基づくQ-ラーニングの変種であるPA(エージェント状態に基づくQ-ラーニング)を提案する。
周期的マルコフ連鎖のアイデアと近似を組み合わせることで、PAが巡回極限に収束し、周期的ポリシーの近似誤差を特徴付けることを厳密に証明する。
- 参考スコア(独自算出の注目度): 1.7068557927955381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The standard approach for Partially Observable Markov Decision Processes (POMDPs) is to convert them to a fully observed belief-state MDP. However, the belief state depends on the system model and is therefore not viable in reinforcement learning (RL) settings. A widely used alternative is to use an agent state, which is a model-free, recursively updateable function of the observation history. Examples include frame stacking and recurrent neural networks. Since the agent state is model-free, it is used to adapt standard RL algorithms to POMDPs. However, standard RL algorithms like Q-learning learn a stationary policy. Our main thesis that we illustrate via examples is that because the agent state does not satisfy the Markov property, non-stationary agent-state based policies can outperform stationary ones. To leverage this feature, we propose PASQL (periodic agent-state based Q-learning), which is a variant of agent-state-based Q-learning that learns periodic policies. By combining ideas from periodic Markov chains and stochastic approximation, we rigorously establish that PASQL converges to a cyclic limit and characterize the approximation error of the converged periodic policy. Finally, we present a numerical experiment to highlight the salient features of PASQL and demonstrate the benefit of learning periodic policies over stationary policies.
- Abstract(参考訳): 部分観測可能なマルコフ決定過程(POMDP)の標準的なアプローチは、それらを完全に観察された信念状態のMDPに変換することである。
しかし、信念状態はシステムモデルに依存するため、強化学習(RL)設定では不可能である。
広く使われている代替手段は、観察履歴のモデル無しで再帰的に更新可能な機能であるエージェント状態を使用することである。
例えば、フレームの積み重ねやリカレントニューラルネットワークなどがある。
エージェント状態はモデルフリーであるため、標準RLアルゴリズムをPOMDPに適応するために使用される。
しかし、Qラーニングのような標準的なRLアルゴリズムは定常ポリシーを学ぶ。
例として、エージェント状態がマルコフの性質を満たさないため、非定常エージェント状態ベースのポリシーは定常エージェントよりも優れる。
本機能を活用するために,エージェント状態に基づくQ-ラーニングの変種であるPASQL(周期的エージェント状態に基づくQ-ラーニング)を提案する。
周期的マルコフ連鎖と確率近似のアイデアを組み合わせることで、PASQLが巡回極限に収束し、収束した周期ポリシーの近似誤差を特徴付けることを厳密に証明する。
最後に、PASQLの健全な特徴を強調する数値実験を行い、定常的なポリシーよりも周期的なポリシーを学ぶことの利点を実証する。
関連論文リスト
- Agent-state based policies in POMDPs: Beyond belief-state MDPs [1.918334858770111]
我々はPOMDPにおける学習に対するいくつかのアプローチを統一的に扱う。
エージェント状態に基づくポリシーの異なるクラスと、各クラスで良いポリシーを見つけるために文献で提案されている様々なアプローチを強調します。
そこで我々は, PMDPにおけるQ-ラーニングとアクター批判アルゴリズムの改善のために, 近似情報状態アプローチのアイデアがどのように使われているかを示す。
論文 参考訳(メタデータ) (2024-09-24T03:32:10Z) - SOAP-RL: Sequential Option Advantage Propagation for Reinforcement Learning in POMDP Environments [18.081732498034047]
この研究は、強化学習アルゴリズムを部分的に観測されたマルコフ決定プロセス(POMDP)に拡張する方法とオプションを比較する。
PPOEMとSOAPという2つのアルゴリズムが提案され、この問題に深く取り組むために研究されている。
論文 参考訳(メタデータ) (2024-07-26T17:59:55Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - The Wasserstein Believer: Learning Belief Updates for Partially
Observable Environments through Reliable Latent Space Models [3.462371782084948]
本稿では,POMDPの潜在モデルと信念更新の近似を学習するRLアルゴリズムを提案する。
我々のアプローチは、我々の出力された信念が最適な値関数を学習できるようにするため、近似の質に関する理論的保証が伴う。
論文 参考訳(メタデータ) (2023-03-06T16:59:14Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Solving the non-preemptive two queue polling model with generally
distributed service and switch-over durations and Poisson arrivals as a
Semi-Markov Decision Process [0.0]
スイッチオーバー期間を持つポーリングシステムは、いくつかの実用的な応用で有用なモデルである。
離散イベント動的システム(DEDS)に分類され、モデリングアプローチに同意する人は誰もいない。
本稿では, ポーリングシステムの半マルコフ決定過程(SMDP)を定式化し, さらなるモデリング能力を導入する。
論文 参考訳(メタデータ) (2021-12-13T11:40:55Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。