論文の概要: Average-reward reinforcement learning in semi-Markov decision processes via relative value iteration
- arxiv url: http://arxiv.org/abs/2512.06218v1
- Date: Fri, 05 Dec 2025 23:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.243013
- Title: Average-reward reinforcement learning in semi-Markov decision processes via relative value iteration
- Title(参考訳): 相対値反復による半マルコフ決定過程における平均逆強化学習
- Authors: Huizhen Yu, Yi Wan, Richard S. Sutton,
- Abstract要約: RVI Q-learningアルゴリズムは、平均回帰最適性方程式に対する解のコンパクトで連結な部分集合にほぼ確実に収束することを示す。
SAフレームワークをフル活用するために、最適な報酬率を推定するための新しい単調性条件を導入する。
- 参考スコア(独自算出の注目度): 7.465862205471524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper applies the authors' recent results on asynchronous stochastic approximation (SA) in the Borkar-Meyn framework to reinforcement learning in average-reward semi-Markov decision processes (SMDPs). We establish the convergence of an asynchronous SA analogue of Schweitzer's classical relative value iteration algorithm, RVI Q-learning, for finite-space, weakly communicating SMDPs. In particular, we show that the algorithm converges almost surely to a compact, connected subset of solutions to the average-reward optimality equation, with convergence to a unique, sample path-dependent solution under additional stepsize and asynchrony conditions. Moreover, to make full use of the SA framework, we introduce new monotonicity conditions for estimating the optimal reward rate in RVI Q-learning. These conditions substantially expand the previously considered algorithmic framework and are addressed through novel arguments in the stability and convergence analysis of RVI Q-learning.
- Abstract(参考訳): 本稿では,Borkar-Meynフレームワークにおける非同期確率近似(SA)に関する著者の最近の成果を,平均逆半マルコフ決定過程(SMDP)における強化学習に適用する。
我々は、有限空間の弱通信SMDPに対して、シュヴァイツァーの古典的相対値反復アルゴリズム RVI Q-learning の非同期SAアナログの収束を確立する。
特に、このアルゴリズムは、平均回帰最適性方程式のコンパクトで連結な解の部分集合にほぼ確実に収束し、追加のステップサイズおよび非同期条件の下で、一意のサンプルパス依存解に収束することを示す。
さらに、SAフレームワークをフル活用するために、RVI Q-learningにおける最適報酬率を推定するための新しい単調性条件を導入する。
これらの条件は、以前検討されたアルゴリズムの枠組みを大幅に拡張し、RVI Q-ラーニングの安定性と収束解析における新しい議論を通して解決される。
関連論文リスト
- Stochastic Optimization with Optimal Importance Sampling [49.484190237840714]
本稿では,両者の時間的分離を必要とせずに,意思決定とIS分布を共同で更新する反復型アルゴリズムを提案する。
本手法は,IS分布系に対する目的的,軽度な仮定の凸性の下で,最小の変数分散を達成し,大域収束を保証する。
論文 参考訳(メタデータ) (2025-04-04T16:10:18Z) - Asynchronous Stochastic Approximation and Average-Reward Reinforcement Learning [11.868402302316131]
本稿では,非同期近似アルゴリズムとその強化学習への応用について述べる。
まず,Borkar と Meyn の安定性証明法を拡張し,より一般的な雑音条件に適応し,非同期 SA に対してより広範な収束保証を与える。
我々は、Schweitzer の古典的相対値アルゴリズム RVI Q-learning の非同期 SA 反復の収束を確立する。
論文 参考訳(メタデータ) (2024-09-05T21:23:51Z) - On Convergence of Average-Reward Q-Learning in Weakly Communicating Markov Decision Processes [11.868402302316131]
本稿では,マルコフ決定過程(MDP)の強化学習(RL)アルゴリズムを,平均回帰基準の下で解析する。
本稿では,MDPを弱通信する反復RVI法のモデル自由集合であるRVI(Rexent Value)に基づくQ-learningアルゴリズムに着目した。
論文 参考訳(メタデータ) (2024-08-29T04:57:44Z) - Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity [3.4376560669160394]
Variance-Reduced Cascade Q-learning (VRCQ)と呼ばれる新しいモデルなしアルゴリズムを導入し分析する。
VRCQは、既存のモデルフリー近似型アルゴリズムと比較して、$ell_infty$-normにおいて優れた保証を提供する。
論文 参考訳(メタデータ) (2024-08-13T00:34:33Z) - Conditional Mean and Variance Estimation via \textit{k}-NN Algorithm with Automated Variance Selection [9.943131787772323]
条件平均と分散度を共同で推定するための新しいテクストリック・アレスト・ニアレスト回帰法(textitk-NN)を提案する。
提案アルゴリズムは,古典的非パラメトリックテクトitk-NNモデルの計算効率と多様体学習能力を保持する。
論文 参考訳(メタデータ) (2024-02-02T18:54:18Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - A Deep Unrolling Model with Hybrid Optimization Structure for Hyperspectral Image Deconvolution [50.13564338607482]
本稿では,DeepMixと呼ばれるハイパースペクトルデコンボリューション問題に対する新しい最適化フレームワークを提案する。
これは3つの異なるモジュール、すなわちデータ一貫性モジュール、手作りの正規化器の効果を強制するモジュール、および装飾モジュールで構成されている。
本研究は,他のモジュールの協調作業によって達成される進歩を維持するために設計された,文脈を考慮した認知型モジュールを提案する。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。