論文の概要: Q-Learning for Stochastic Control under General Information Structures
and Non-Markovian Environments
- arxiv url: http://arxiv.org/abs/2311.00123v2
- Date: Mon, 4 Mar 2024 15:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:49:03.376257
- Title: Q-Learning for Stochastic Control under General Information Structures
and Non-Markovian Environments
- Title(参考訳): 一般情報構造と非マルコフ環境下における確率制御のQラーニング
- Authors: Ali Devran Kara and Serdar Yuksel
- Abstract要約: 反復に対する収束定理を提示し、特に一般の、おそらくは非マルコフ的環境下でのQ学習を反復する。
非マルコフ環境における様々な制御問題に対するこの定理の意義と応用について論じる。
- 参考スコア(独自算出の注目度): 1.90365714903665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a primary contribution, we present a convergence theorem for stochastic
iterations, and in particular, Q-learning iterates, under a general, possibly
non-Markovian, stochastic environment. Our conditions for convergence involve
an ergodicity and a positivity criterion. We provide a precise characterization
on the limit of the iterates and conditions on the environment and
initializations for convergence. As our second contribution, we discuss the
implications and applications of this theorem to a variety of stochastic
control problems with non-Markovian environments involving (i) quantized
approximations of fully observed Markov Decision Processes (MDPs) with
continuous spaces (where quantization break down the Markovian structure), (ii)
quantized approximations of belief-MDP reduced partially observable MDPS
(POMDPs) with weak Feller continuity and a mild version of filter stability
(which requires the knowledge of the model by the controller), (iii) finite
window approximations of POMDPs under a uniform controlled filter stability
(which does not require the knowledge of the model), and (iv) for multi-agent
models where convergence of learning dynamics to a new class of equilibria,
subjective Q-learning equilibria, will be studied. In addition to the
convergence theorem, some implications of the theorem above are new to the
literature and others are interpreted as applications of the convergence
theorem. Some open problems are noted.
- Abstract(参考訳): 第一の貢献として、確率的反復に対する収束定理、特にQ学習は、一般、おそらくは非マルコフ的確率的環境の下で反復する。
我々の収束条件には、エルゴード性と肯定性基準が含まれる。
環境における反復と条件の限界と収束のための初期化の正確な特徴付けを行う。
第2の貢献として,非マルコフ環境を含む様々な確率的制御問題に対するこの定理の意義と応用について論じる。
(i)連続空間を持つ完全観測マルコフ決定過程(mdps)の量子化近似(量子化がマルコフ構造を分解する場合)
(II) フェラー連続性の弱い部分観測可能MDPS(POMDP)とフィルタ安定性の軽度バージョン(コントローラによるモデルの知識を必要とする)の量子化近似
(iii)一様制御されたフィルタ安定性の下でのpomdpの有限窓近似と(モデルに関する知識を必要としない)
(iv)新しいクラスである主観的q学習平衡に学習ダイナミクスが収束するマルチエージェントモデルについて検討する。
収束定理に加えて、上記の定理のいくつかの意味は文献に新しいものであり、その他は収束定理の応用として解釈される。
いくつか未解決の問題が指摘されている。
関連論文リスト
- A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Convergence rates for momentum stochastic gradient descent with noise of
machine learning type [1.4213973379473654]
我々は、降下スキーム(MSGD)の運動量と、その連続的インタイム(continuous-in-time)の運動量を考える。
対象関数に対する目的関数値のほぼ指数収束性を示す。
論文 参考訳(メタデータ) (2023-02-07T15:59:08Z) - Distributed Bayesian Learning of Dynamic States [65.7870637855531]
提案アルゴリズムは有限状態隠れマルコフモデルに対する分散ベイズフィルタタスクである。
逐次状態推定や、動的環境下でのソーシャルネットワーク上での意見形成のモデル化に使用できる。
論文 参考訳(メタデータ) (2022-12-05T19:40:17Z) - Targeted Separation and Convergence with Kernel Discrepancies [66.48817218787006]
カーネルベースの不一致測度は、(i)ターゲットPを他の確率測度から分離するか、(ii)Pへの弱収束を制御する必要がある。
本稿では, (i) と (ii) を保証するのに十分な,必要な新しい条件を導出する。
可分距離空間上のMDDに対して、ボヒナー埋め込み可測度を分離するカーネルを特徴づけ、すべての測度を非有界カーネルと分離するための単純な条件を導入する。
論文 参考訳(メタデータ) (2022-09-26T16:41:16Z) - A Convergence Theory for Over-parameterized Variational Quantum
Eigensolvers [21.72347971869391]
変分量子固有解法(VQE)は、近未来のノイズ中間規模量子(NISQ)コンピュータにおける量子応用の有望な候補である。
オーバーパラメータ化系におけるVQEの収束の厳密な分析を行った。
論文 参考訳(メタデータ) (2022-05-25T04:06:50Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Q-Learning for MDPs with General Spaces: Convergence and Near Optimality
via Quantization under Weak Continuity [2.685668802278156]
状態と行動の量子化による標準ボレル MDP のQ-ラーニングが限界に収束することを示す。
本稿では,連続型MDPに対するQ-ラーニングの適用性について,非常に一般的な収束と近似結果を示す。
論文 参考訳(メタデータ) (2021-11-12T15:47:10Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - On the Convergence of Continuous Constrained Optimization for Structure
Learning [30.279796192573805]
本稿では, 線形, 非線形, 共起ケースにおける構造学習における拡張ラグランジアン法 (ALM) と二次ペナルティ法 (QPM) の収束性を示す。
さらに、軽度条件下で、DAG溶液へのQPMの収束保証を確立する。
論文 参考訳(メタデータ) (2020-11-23T00:29:37Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。