論文の概要: Q-Learning for MDPs with General Spaces: Convergence and Near Optimality
via Quantization under Weak Continuity
- arxiv url: http://arxiv.org/abs/2111.06781v1
- Date: Fri, 12 Nov 2021 15:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 17:11:38.065910
- Title: Q-Learning for MDPs with General Spaces: Convergence and Near Optimality
via Quantization under Weak Continuity
- Title(参考訳): 一般空間を持つmdpのq-learning:弱連続性下での量子化による収束と近似最適性
- Authors: Ali Devran Kara, Naci Saldi, Serdar Y\"uksel
- Abstract要約: 状態と行動の量子化による標準ボレルPのQ-ラーニングが限界に収束することを示す。
本稿では,連続型MDPに対するQ-ラーニングの適用性について,非常に一般的な収束と近似結果を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning algorithms often require finiteness of state and
action spaces in Markov decision processes (MDPs) and various efforts have been
made in the literature towards the applicability of such algorithms for
continuous state and action spaces. In this paper, we show that under very mild
regularity conditions (in particular, involving only weak continuity of the
transition kernel of an MDP), Q-learning for standard Borel MDPs via
quantization of states and actions converge to a limit, and furthermore this
limit satisfies an optimality equation which leads to near optimality with
either explicit performance bounds or which are guaranteed to be asymptotically
optimal. Our approach builds on (i) viewing quantization as a measurement
kernel and thus a quantized MDP as a POMDP, (ii) utilizing near optimality and
convergence results of Q-learning for POMDPs, and (iii) finally,
near-optimality of finite state model approximations for MDPs with weakly
continuous kernels which we show to correspond to the fixed point of the
constructed POMDP. Thus, our paper presents a very general convergence and
approximation result for the applicability of Q-learning for continuous MDPs.
- Abstract(参考訳): 強化学習アルゴリズムはマルコフ決定過程(MDP)における状態空間と行動空間の有限性を必要とすることが多く、連続状態および行動空間に対するそのようなアルゴリズムの適用性への様々な取り組みが文献で行われている。
本稿では、非常に穏やかな規則性条件(特に、MDPの遷移核の弱連続性のみを含む)の下で、状態と動作の量子化による標準ボレルMDPのQ-ラーニングが極限に収束し、さらに、この極限は、明示的な性能境界でほぼ最適か、漸近的に最適であることが保証される最適性方程式を満たすことを示す。
私たちのアプローチは
i)量子化を測定カーネルとして、したがって量子化MDPをPOMDPとして見ること。
(ii)pomdpsにおけるq-learningの最適化と収束結果の活用
(iii) 最後に, 構築した pomdp の不動点に対応する弱連続核を持つ mdps に対する有限状態モデル近似の近似近似に近い最適化性を示す。
そこで本研究では,連続mdpに対するq-learningの適用可能性について,非常に一般的な収束と近似結果を示す。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Quantum Markov Decision Processes: General Theory, Approximations, and Classes of Policies [1.8775413720750924]
本稿では,新しいフレームワーク,アルゴリズム,今後の研究手法を導入することを目的とした,新しい量子MDPモデルを提案する。
われわれのアプローチは、離散時間量子制御における新しい研究方向の道を開くことを願っている。
論文 参考訳(メタデータ) (2024-02-22T15:59:09Z) - Q-Learning for Stochastic Control under General Information Structures
and Non-Markovian Environments [1.90365714903665]
反復に対する収束定理を提示し、特に一般の、おそらくは非マルコフ的環境下でのQ学習を反復する。
非マルコフ環境における様々な制御問題に対するこの定理の意義と応用について論じる。
論文 参考訳(メタデータ) (2023-10-31T19:53:16Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Convergence of Finite Memory Q-Learning for POMDPs and Near Optimality
of Learned Policies under Filter Stability [0.0]
POMDPに対して、過去の観測と制御行動の有限履歴を用いて、制御ポリシーに対するQ学習アルゴリズムの収束を提供する。
有限履歴ウィンドウの長さに対する近似誤差に関する明示的な誤差境界を示す。
我々は、極限不動点方程式が近似的信念-MDPの最適解を与えることを示す。
論文 参考訳(メタデータ) (2021-03-22T20:14:26Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z) - Theoretical Convergence of Multi-Step Model-Agnostic Meta-Learning [63.64636047748605]
一般的なマルチステップMAMLアルゴリズムに対して収束保証を提供するための新しい理論フレームワークを開発する。
特に,本研究の結果は,収束を保証するためには,内部段階のステップを逆比例して$N$の内段ステップを選択する必要があることを示唆している。
論文 参考訳(メタデータ) (2020-02-18T19:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。