論文の概要: Regularized Q-learning
- arxiv url: http://arxiv.org/abs/2202.05404v7
- Date: Wed, 23 Oct 2024 01:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:52:36.340225
- Title: Regularized Q-learning
- Title(参考訳): 正規化Q-ラーニング
- Authors: Han-Dong Lim, Donghwan Lee,
- Abstract要約: 本稿では,線形関数近似を用いて収束する新しいQ-ラーニングアルゴリズムを提案する。
線形関数近似を用いたQ-ラーニングが分散した環境に収束することが実験的に示された。
- 参考スコア(独自算出の注目度): 6.663174194579773
- License:
- Abstract: Q-learning is widely used algorithm in reinforcement learning community. Under the lookup table setting, its convergence is well established. However, its behavior is known to be unstable with the linear function approximation case. This paper develops a new Q-learning algorithm that converges when linear function approximation is used. We prove that simply adding an appropriate regularization term ensures convergence of the algorithm. We prove its stability using a recent analysis tool based on switching system models. Moreover, we experimentally show that it converges in environments where Q-learning with linear function approximation has known to diverge. We also provide an error bound on the solution where the algorithm converges.
- Abstract(参考訳): Q-learningは強化学習コミュニティで広く使われているアルゴリズムである。
ルックアップテーブル設定の下では、その収束は十分に確立されている。
しかし、線形関数近似の場合、その挙動は不安定であることが知られている。
本稿では,線形関数近似を用いて収束する新しいQ-ラーニングアルゴリズムを提案する。
適切な正規化項を追加するだけでアルゴリズムの収束が保証されることを示す。
スイッチングシステムモデルに基づく最近の解析ツールを用いて,その安定性を実証する。
さらに,線形関数近似を用いたQ-ラーニングが普及している環境に収束することが実験的に示された。
また、アルゴリズムが収束する解に縛られる誤差も提供する。
関連論文リスト
- Constant Stepsize Q-learning: Distributional Convergence, Bias and
Extrapolation [27.17913040244775]
本稿では,非同期Q-ラーニングを定常的なステップサイズで研究する。
一定段数Q-ラーニングを時間均質な連鎖に接続することにより、距離の反復の分布収束を示す。
また,Q-ラーニングイテレートに対する中心極限理論を確立し,平均的イテレートの正規性を示す。
具体的には、偏差は高次項までの段差に比例し、線形係数に対して明示的な表現を与える。
論文 参考訳(メタデータ) (2024-01-25T02:01:53Z) - Stability of Q-Learning Through Design and Optimism [0.0]
本論文は近似とQ-ラーニングに関するチュートリアルである。
これは、2023年6月にナンシー・フランスで発表されたINFORMS APS inaugural Applied Probability Trust Plenary Lectureの詳細を提供する。
また,これらのアルゴリズムの安定性を確保するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-05T20:04:26Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Iterative regularization in classification via hinge loss diagonal descent [12.684351703991965]
反復正規化(英: Iterative regularization)は、最近機械学習で人気になった正規化理論における古典的な考え方である。
本稿では,分類の文脈における反復正則化に着目した。
論文 参考訳(メタデータ) (2022-12-24T07:15:26Z) - Online Regularized Learning Algorithm for Functional Data [2.5382095320488673]
本稿では,Hilbertカーネル空間におけるオンライン正規化学習アルゴリズムについて考察する。
その結果, 定常的なステップサイズでの予測誤差と推定誤差の収束速度は, 文献と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-24T11:56:10Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Matrix Completion via Non-Convex Relaxation and Adaptive Correlation
Learning [90.8576971748142]
閉形式解によって最適化できる新しいサロゲートを開発する。
そこで我々は, 上向きの相関関係を利用して, 適応的相関学習モデルを構築した。
論文 参考訳(メタデータ) (2022-03-04T08:50:50Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。
本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文 参考訳(メタデータ) (2020-12-09T20:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。