論文の概要: Optimistic Training and Convergence of Q-Learning -- Extended Version
- arxiv url: http://arxiv.org/abs/2602.06146v1
- Date: Thu, 05 Feb 2026 19:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.080968
- Title: Optimistic Training and Convergence of Q-Learning -- Extended Version
- Title(参考訳): Q-Learningの最適トレーニングと収束 - 拡張バージョン
- Authors: Prashant Mehta, Sean Meyn,
- Abstract要約: 近年の研究では,線形関数近似を用いたQ-ラーニングが安定であることが示されている。
一次元の例は、トレーニングの難解なポリシーの下では、PBEに対する解決策がないことを示している。
基底が理想であるような例は、真の Q-函数が基底のスパンであるという意味で示される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent work it is shown that Q-learning with linear function approximation is stable, in the sense of bounded parameter estimates, under the $(\varepsilon,κ)$-tamed Gibbs policy; $κ$ is inverse temperature, and $\varepsilon>0$ is introduced for additional exploration. Under these assumptions it also follows that there is a solution to the projected Bellman equation (PBE). Left open is uniqueness of the solution, and criteria for convergence outside of the standard tabular or linear MDP settings. The present work extends these results to other variants of Q-learning, and clarifies prior work: a one dimensional example shows that under an oblivious policy for training there may be no solution to the PBE, or multiple solutions, and in each case the algorithm is not stable under oblivious training. The main contribution is that far more structure is required for convergence. An example is presented for which the basis is ideal, in the sense that the true Q-function is in the span of the basis. However, there are two solutions to the PBE under the greedy policy, and hence also for the $(\varepsilon,κ)$-tamed Gibbs policy for all sufficiently small $\varepsilon>0$ and $κ\ge 1$.
- Abstract(参考訳): 近年の研究では, 線形関数近似を用いたQ-ラーニングは, $(\varepsilon,κ)$-tamed Gibbs ポリシの下で, 有界パラメータ推定の意味で安定であり, $κ$ は逆温度であり, $\varepsilon>0$ はさらなる探索のために導入された。
これらの仮定の下では、射影ベルマン方程式(PBE)の解が存在することも従う。
左開きは解の特異性であり、標準表や線形MDP設定外への収束基準である。
この研究は、これらの結果を他のQ-ラーニングの変種にまで拡張し、事前の作業を明確にする: 一次元の例は、学習の難解なポリシーの下では、PBEや複数の解に対する解が存在しず、それぞれの場合においてアルゴリズムは、難解な訓練の下で安定ではないことを示している。
主な貢献は、収束にはるかに多くの構造が必要であることである。
基底が理想であるような例は、真の Q-函数が基底のスパンであるという意味で示される。
しかし、欲求政策の下では PBE に対する解が2つあり、従って$(\varepsilon,κ)$-tamed Gibbs ポリシは、十分小さいすべての $\varepsilon>0$ と $κ\ge 1$ に対してである。
関連論文リスト
- Computational Hardness of Reinforcement Learning with Partial $q^π$-Realizability [1.6328866317851185]
本稿では, 線形関数近似系における強化学習の計算複雑性を部分的に$qpi$-realizability と呼ぶ。
この設定で$epsilon$-optimal Policyを学習することは、計算的に困難であることを示す。
我々の結果は$q*$-realizability(英語版)を反映し、$Pi$が最適ポリシーを超えて拡張された場合でも計算困難が持続することを示す。
論文 参考訳(メタデータ) (2025-10-24T01:18:49Z) - Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。
逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。
これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - Linear $Q$-Learning Does Not Diverge in $L^2$: Convergence Rates to a Bounded Set [34.129520133741124]
本稿では,線形$Q$-ラーニングイテレート(有界集合への)の最初の$L2$収束率をさらに確立する。
必要なのは、適応温度の$epsilon$-softmaxの行動ポリシーだけです。
論文 参考訳(メタデータ) (2025-01-31T16:10:50Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - Neural Network Approximations of PDEs Beyond Linearity: A
Representational Perspective [40.964402478629495]
非線形PDEの解を近似するためのニューラルネットワークの表現力について検討する。
Emphnonlinear elliptic variational PDEsとして知られるPDEのクラスを扱うことで、ニューラルネットワークは次元性の呪いを避けることができることを示す。
論文 参考訳(メタデータ) (2022-10-21T16:53:18Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。