論文の概要: Q-learning as a monotone scheme
- arxiv url: http://arxiv.org/abs/2405.20538v1
- Date: Thu, 30 May 2024 23:22:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 15:55:52.630323
- Title: Q-learning as a monotone scheme
- Title(参考訳): 単調スキームとしてのQ-ラーニング
- Authors: Lingyi Yang,
- Abstract要約: 強化学習法における安定性の問題が続いている。
単調なスキームの意味において,正確なQ-ラーニングの収束基準を解釈する。
単調性特性に対する関数近似の結果について論じる。
- 参考スコア(独自算出の注目度): 1.450405446885067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stability issues with reinforcement learning methods persist. To better understand some of these stability and convergence issues involving deep reinforcement learning methods, we examine a simple linear quadratic example. We interpret the convergence criterion of exact Q-learning in the sense of a monotone scheme and discuss consequences of function approximation on monotonicity properties.
- Abstract(参考訳): 強化学習法における安定性の問題が続いている。
深層強化学習法に関わるこれらの安定性と収束問題のいくつかをよりよく理解するために,簡単な線形二次例について検討する。
単調なスキームの意味で、正確なQ-ラーニングの収束基準を解釈し、単調性特性に対する関数近似の結果について議論する。
関連論文リスト
- A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Unified ODE Analysis of Smooth Q-Learning Algorithms [5.152147416671501]
近年,Q-ラーニングのためのコンバージェンス解析をスイッチングシステムフレームワークを用いて導入している。
スイッチングシステムアプローチを改善するために,より汎用的で統一的な収束解析を提案する。
論文 参考訳(メタデータ) (2024-04-20T01:16:27Z) - On the Convergence of Continual Learning with Adaptive Methods [4.351356718501137]
適応型非連続学習法(NCCL)を提案する。
提案手法は,複数の画像分類タスクに対する継続学習既存手法の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2024-04-08T14:28:27Z) - Momentum Contrastive Pre-training for Question Answering [54.57078061878619]
MCROSSはモーメントコントラスト学習フレームワークを導入し、クローゼのような解答確率と自然な問合せのサンプルペアを一致させる。
本手法は,教師付きシナリオとゼロショットシナリオの両方において,すべてのベースラインと比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2022-12-12T08:28:22Z) - SARAH-based Variance-reduced Algorithm for Stochastic Finite-sum
Cocoercive Variational Inequalities [137.6408511310322]
有限サムコヒーレンシブ変分不等式の問題を考える。
強い単調な問題に対しては、この方法を用いて解への線形収束を達成することができる。
論文 参考訳(メタデータ) (2022-10-12T08:04:48Z) - Regret Analysis of Certainty Equivalence Policies in Continuous-Time
Linear-Quadratic Systems [0.0]
本研究では,線形四元数系の正準モデル制御のためのユビキタス強化学習ポリシーの理論的性能保証について検討する。
我々は、時間的後悔境界の平方根を確立し、ランダム化された確実性等価ポリシーが一つの状態軌跡から高速に最適な制御行動を学ぶことを示す。
論文 参考訳(メタデータ) (2022-06-09T11:47:36Z) - Stability and Generalization of Stochastic Gradient Methods for Minimax
Problems [71.60601421935844]
多くの機械学習問題は、GAN(Generative Adversarial Networks)のようなミニマックス問題として定式化できる。
ミニマックス問題に対するトレーニング勾配法から例を包括的に一般化解析する。
論文 参考訳(メタデータ) (2021-05-08T22:38:00Z) - Finite-Time Analysis of Asynchronous Q-Learning with Discrete-Time
Switching System Models [6.85316573653194]
一定のステップサイズを持つQ学習を離散時間切替線形系として自然に定式化できることを実証する。
主に制御フレームワークに基づくQ-ラーニングに関する新規かつ直感的な洞察を提供する。
論文 参考訳(メタデータ) (2021-02-17T05:32:07Z) - Disentangling Observed Causal Effects from Latent Confounders using
Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。
我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文 参考訳(メタデータ) (2021-01-17T07:48:45Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。