論文の概要: Convergence of regularized agent-state-based Q-learning in POMDPs
- arxiv url: http://arxiv.org/abs/2508.21314v2
- Date: Tue, 02 Sep 2025 23:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 11:03:28.03266
- Title: Convergence of regularized agent-state-based Q-learning in POMDPs
- Title(参考訳): POMDPにおける正規化エージェント状態に基づくQ-ラーニングの収束性
- Authors: Amit Sinha, Matthieu Geist, Aditya Mahajan,
- Abstract要約: 正規化エージェント状態に基づくQ-ラーニング(RA)と呼ばれるQ-ラーニングアルゴリズムの最も単純な形式について検討する。
穏やかな技術的条件の下で収束することを示す。
同様の分析は、周期的な振る舞いを学習するRAポリシーの変種として引き続き有効であることを示す。
- 参考スコア(独自算出の注目度): 24.164262011028246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a framework to understand the convergence of commonly used Q-learning reinforcement learning algorithms in practice. Two salient features of such algorithms are: (i)~the Q-table is recursively updated using an agent state (such as the state of a recurrent neural network) which is not a belief state or an information state and (ii)~policy regularization is often used to encourage exploration and stabilize the learning algorithm. We investigate the simplest form of such Q-learning algorithms which we call regularized agent-state-based Q-learning (RASQL) and show that it converges under mild technical conditions to the fixed point of an appropriately defined regularized MDP, which depends on the stationary distribution induced by the behavioral policy. We also show that a similar analysis continues to work for a variant of RASQL that learns periodic policies. We present numerical examples to illustrate that the empirical convergence behavior matches with the proposed theoretical limit.
- Abstract(参考訳): 本稿では,一般的なQ-ラーニング強化学習アルゴリズムの収束を理解するための枠組みを提案する。
そのようなアルゴリズムの2つの有能な特徴は以下のとおりである。
i)〜Qテーブルは、信念状態や情報状態ではないエージェント状態(リカレントニューラルネットワークの状態など)を用いて再帰的に更新される。
(ii)〜政治正則化は、探索と学習アルゴリズムの安定化を促進するためにしばしば用いられる。
本稿では, 正規化エージェント状態に基づくQ-ラーニング (RASQL) と呼ばれるQ-ラーニングアルゴリズムの最も単純な形式について検討し, 行動ポリシーによって誘導される定常分布に依存する, 適度に定義された正規化MDPの固定点に, 穏やかな技術的条件下で収束することを示す。
また、同様の分析が、定期的なポリシーを学習するRASQLの亜種として引き続き動作することを示す。
本稿では,経験的収束挙動が提案した理論限界と一致することを示す数値的な例を示す。
関連論文リスト
- Periodic agent-state based Q-learning for POMDPs [23.296159073116264]
広く使われている代替手段は、観測履歴のモデルのない周期的に更新可能な機能であるエージェント状態を使用することである。
本稿では,エージェント状態に基づくQ-ラーニングの変種であるPA(エージェント状態に基づくQ-ラーニング)を提案する。
周期的マルコフ連鎖のアイデアと近似を組み合わせることで、PAが巡回極限に収束し、周期的ポリシーの近似誤差を特徴付けることを厳密に証明する。
論文 参考訳(メタデータ) (2024-07-08T16:58:57Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - q-Learning in Continuous Time [11.694169299062597]
エントロピー規則化探索拡散過程の定式化による強化学習(RL)におけるQ-ラーニングの連続的対応について検討した。
我々は、時間離散化とは無関係なq-函数に関するq-ラーニング理論を開発する。
我々は、根底にある問題を解決するために、異なるアクター批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2022-07-02T02:20:41Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。