Fugu-MT 論文翻訳(概要): Q-Learning for Stochastic Control under General Information Structures and Non-Markovian Environments

論文の概要: Q-Learning for Stochastic Control under General Information Structures and Non-Markovian Environments

arxiv url: http://arxiv.org/abs/2311.00123v2
Date: Mon, 4 Mar 2024 15:59:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 01:49:03.376257
Title: Q-Learning for Stochastic Control under General Information Structures and Non-Markovian Environments
Title（参考訳）: 一般情報構造と非マルコフ環境下における確率制御のQラーニング
Authors: Ali Devran Kara and Serdar Yuksel
Abstract要約: 反復に対する収束定理を提示し、特に一般の、おそらくは非マルコフ的環境下でのQ学習を反復する。非マルコフ環境における様々な制御問題に対するこの定理の意義と応用について論じる。
参考スコア（独自算出の注目度）: 1.90365714903665
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As a primary contribution, we present a convergence theorem for stochastic iterations, and in particular, Q-learning iterates, under a general, possibly non-Markovian, stochastic environment. Our conditions for convergence involve an ergodicity and a positivity criterion. We provide a precise characterization on the limit of the iterates and conditions on the environment and initializations for convergence. As our second contribution, we discuss the implications and applications of this theorem to a variety of stochastic control problems with non-Markovian environments involving (i) quantized approximations of fully observed Markov Decision Processes (MDPs) with continuous spaces (where quantization break down the Markovian structure), (ii) quantized approximations of belief-MDP reduced partially observable MDPS (POMDPs) with weak Feller continuity and a mild version of filter stability (which requires the knowledge of the model by the controller), (iii) finite window approximations of POMDPs under a uniform controlled filter stability (which does not require the knowledge of the model), and (iv) for multi-agent models where convergence of learning dynamics to a new class of equilibria, subjective Q-learning equilibria, will be studied. In addition to the convergence theorem, some implications of the theorem above are new to the literature and others are interpreted as applications of the convergence theorem. Some open problems are noted.
Abstract（参考訳）: 第一の貢献として、確率的反復に対する収束定理、特にQ学習は、一般、おそらくは非マルコフ的確率的環境の下で反復する。我々の収束条件には、エルゴード性と肯定性基準が含まれる。環境における反復と条件の限界と収束のための初期化の正確な特徴付けを行う。第2の貢献として,非マルコフ環境を含む様々な確率的制御問題に対するこの定理の意義と応用について論じる。 (i)連続空間を持つ完全観測マルコフ決定過程(mdps)の量子化近似(量子化がマルコフ構造を分解する場合) (II) フェラー連続性の弱い部分観測可能MDPS(POMDP)とフィルタ安定性の軽度バージョン(コントローラによるモデルの知識を必要とする)の量子化近似 (iii)一様制御されたフィルタ安定性の下でのpomdpの有限窓近似と(モデルに関する知識を必要としない) (iv)新しいクラスである主観的q学習平衡に学習ダイナミクスが収束するマルチエージェントモデルについて検討する。収束定理に加えて、上記の定理のいくつかの意味は文献に新しいものであり、その他は収束定理の応用として解釈される。いくつか未解決の問題が指摘されている。

関連論文リスト

CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文参考訳（メタデータ） (2025-07-10T21:32:18Z)
Hyperscaling of Fidelity and Operator Estimations in the Critical Manifold [0.0]
本研究では, 減速運動量モードで支持される観測値の基底状態予測値を, QFTが流れる固定点理論に基づく平均値で近似できることを示す。以上の結果から,予測値の計算において,QFTをスケール不変の制限で置き換えることが可能なケースの明確化が可能となった。
論文参考訳（メタデータ） (2025-05-21T14:20:54Z)
Stochastic Optimization with Optimal Importance Sampling [49.484190237840714]
本稿では,両者の時間的分離を必要とせずに,意思決定とIS分布を共同で更新する反復型アルゴリズムを提案する。本手法は,IS分布系に対する目的的,軽度な仮定の凸性の下で,最小の変数分散を達成し,大域収束を保証する。
論文参考訳（メタデータ） (2025-04-04T16:10:18Z)
Uncertainty quantification for Markov chains with application to temporal difference learning [63.49764856675643]
マルコフ連鎖のベクトル値および行列値関数に対する新しい高次元濃度不等式とベリー・エッシー境界を開発する。我々は、強化学習における政策評価に広く用いられているTD学習アルゴリズムを解析する。
論文参考訳（メタデータ） (2025-02-19T15:33:55Z)
On the Convergence and Stability of Upside-Down Reinforcement Learning, Goal-Conditioned Supervised Learning, and Online Decision Transformers [25.880499561355904]
本稿は,表意的なアップサイドダウン強化学習,ゴール・コンディションド・スーパービジョン学習,オンライン決定変換器の収束と安定性を厳密に分析する。
論文参考訳（メタデータ） (2025-02-08T19:26:22Z)
Transition of $α$-mixing in Random Iterations with Applications in Queuing Theory [0.0]
本研究では, 混合特性を外因性回帰器から結合論による応答へ伝達することを示す。また,非定常環境下においても,ドリフトおよびマイノライズ条件のランダム環境におけるマルコフ連鎖について検討した。
論文参考訳（メタデータ） (2024-10-07T14:13:37Z)
Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文参考訳（メタデータ） (2024-10-03T09:07:13Z)
A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文参考訳（メタデータ） (2024-05-24T21:09:19Z)
Distributed Bayesian Learning of Dynamic States [65.7870637855531]
提案アルゴリズムは有限状態隠れマルコフモデルに対する分散ベイズフィルタタスクである。逐次状態推定や、動的環境下でのソーシャルネットワーク上での意見形成のモデル化に使用できる。
論文参考訳（メタデータ） (2022-12-05T19:40:17Z)
Targeted Separation and Convergence with Kernel Discrepancies [61.973643031360254]
カーネルベースの不一致測度は、(i)ターゲットPを他の確率測度から分離するか、(ii)Pへの弱収束を制御する必要がある。本稿では, (i) と (ii) を保証するのに十分な,必要な新しい条件を導出する。可分距離空間上のMDDに対して、ボヒナー埋め込み可測度を分離するカーネルを特徴づけ、すべての測度を非有界カーネルと分離するための単純な条件を導入する。
論文参考訳（メタデータ） (2022-09-26T16:41:16Z)
A Convergence Theory for Over-parameterized Variational Quantum Eigensolvers [21.72347971869391]
変分量子固有解法(VQE)は、近未来のノイズ中間規模量子(NISQ)コンピュータにおける量子応用の有望な候補である。オーバーパラメータ化系におけるVQEの収束の厳密な分析を行った。
論文参考訳（メタデータ） (2022-05-25T04:06:50Z)
Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文参考訳（メタデータ） (2022-01-21T02:46:57Z)
Q-Learning for MDPs with General Spaces: Convergence and Near Optimality via Quantization under Weak Continuity [2.685668802278156]
状態と行動の量子化による標準ボレル MDP のQ-ラーニングが限界に収束することを示す。本稿では,連続型MDPに対するQ-ラーニングの適用性について,非常に一般的な収束と近似結果を示す。
論文参考訳（メタデータ） (2021-11-12T15:47:10Z)
On the Convergence of Continuous Constrained Optimization for Structure Learning [30.279796192573805]
本稿では, 線形, 非線形, 共起ケースにおける構造学習における拡張ラグランジアン法 (ALM) と二次ペナルティ法 (QPM) の収束性を示す。さらに、軽度条件下で、DAG溶液へのQPMの収束保証を確立する。
論文参考訳（メタデータ） (2020-11-23T00:29:37Z)
Near Optimality of Finite Memory Feedback Policies in Partially Observed Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文参考訳（メタデータ） (2020-10-15T00:37:51Z)
Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文参考訳（メタデータ） (2020-06-12T00:32:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。