論文の概要: Periodic Regularized Q-Learning
- arxiv url: http://arxiv.org/abs/2602.03301v1
- Date: Tue, 03 Feb 2026 09:28:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.358157
- Title: Periodic Regularized Q-Learning
- Title(参考訳): 周期正規化Q-ラーニング
- Authors: Hyukjun Yang, Han-Dong Lim, Donghwan Lee,
- Abstract要約: 我々は、新しいアルゴリズム、周期正規化Q-ラーニング(PRQ)を提案する。
線形関数近似の下でのPRQの有限時間収束保証を証明する厳密な理論解析を提供する。
- 参考スコア(独自算出の注目度): 9.333190920811626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning (RL), Q-learning is a fundamental algorithm whose convergence is guaranteed in the tabular setting. However, this convergence guarantee does not hold under linear function approximation. To overcome this limitation, a significant line of research has introduced regularization techniques to ensure stable convergence under function approximation. In this work, we propose a new algorithm, periodic regularized Q-learning (PRQ). We first introduce regularization at the level of the projection operator and explicitly construct a regularized projected value iteration (RP-VI), subsequently extending it to a sample-based RL algorithm. By appropriately regularizing the projection operator, the resulting projected value iteration becomes a contraction. By extending this regularized projection into the stochastic setting, we establish the PRQ algorithm and provide a rigorous theoretical analysis that proves finite-time convergence guarantees for PRQ under linear function approximation.
- Abstract(参考訳): 強化学習(RL)において、Q-ラーニング(Q-learning)は、表の設定において収束が保証される基本アルゴリズムである。
しかし、この収束保証は線形関数近似では成立しない。
この制限を克服するため、関数近似の下で安定収束を保証するための正則化技術を導入している。
本研究では,新しいアルゴリズムである周期正規化Q-ラーニング(PRQ)を提案する。
まず、プロジェクション演算子のレベルで正規化を導入し、正規化された投影値反復(RP-VI)を明示的に構築し、次にサンプルベースのRLアルゴリズムに拡張する。
プロジェクション演算子を適切に正規化することにより、得られた投影値反復は収縮となる。
この正規化射影を確率的設定に拡張することにより、線形関数近似の下でのPRQの有限時間収束保証を証明する厳密な理論解析を行う。
関連論文リスト
- Convergence of regularized agent-state-based Q-learning in POMDPs [24.164262011028246]
正規化エージェント状態に基づくQ-ラーニング(RA)と呼ばれるQ-ラーニングアルゴリズムの最も単純な形式について検討する。
穏やかな技術的条件の下で収束することを示す。
同様の分析は、周期的な振る舞いを学習するRAポリシーの変種として引き続き有効であることを示す。
論文 参考訳(メタデータ) (2025-08-29T02:45:28Z) - Uncertainty quantification for Markov chain induced martingales with application to temporal difference learning [55.197497603087065]
線形関数近似を用いた時間差分学習アルゴリズムの性能解析を行った。
マルコフ連鎖によって誘導されるベクトル値マルティンタに対する新規で一般的な高次元濃度不等式とベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2025-02-19T15:33:55Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [55.80276145563105]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
3つの理論的な貢献により、現在の最先端の成果が向上する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Almost-sure convergence of iterates and multipliers in stochastic
sequential quadratic optimization [21.022322975077653]
等式制約付き連続最適化問題の解法が近年注目されている。
収束保証は、ゼロを測定するための勾配の期待値に制限されている。
また,SQPアルゴリズムにより生成した予備値,ラグランジュ測度,ステーション測度に対する新たなほぼ収束保証を証明した。
論文 参考訳(メタデータ) (2023-08-07T16:03:40Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。