論文の概要: Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs
- arxiv url: http://arxiv.org/abs/2110.08440v2
- Date: Tue, 19 Oct 2021 17:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 18:44:23.299390
- Title: Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs
- Title(参考訳): オンラインターゲットq-learning with reverse experience replay: 線形mdpのための最適ポリシーの探索
- Authors: Naman Agarwal, Syomantak Chaudhuri, Prateek Jain, Dheeraj Nagaraj,
Praneeth Netrapalli
- Abstract要約: 我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
- 参考スコア(独自算出の注目度): 50.75812033462294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Q-learning is a popular Reinforcement Learning (RL) algorithm which is widely
used in practice with function approximation (Mnih et al., 2015). In contrast,
existing theoretical results are pessimistic about Q-learning. For example,
(Baird, 1995) shows that Q-learning does not converge even with linear function
approximation for linear MDPs. Furthermore, even for tabular MDPs with
synchronous updates, Q-learning was shown to have sub-optimal sample complexity
(Li et al., 2021;Azar et al., 2013). The goal of this work is to bridge the gap
between practical success of Q-learning and the relatively pessimistic
theoretical results. The starting point of our work is the observation that in
practice, Q-learning is used with two important modifications: (i) training
with two networks, called online network and target network simultaneously
(online target learning, or OTL) , and (ii) experience replay (ER) (Mnih et
al., 2015). While they have been observed to play a significant role in the
practical success of Q-learning, a thorough theoretical understanding of how
these two modifications improve the convergence behavior of Q-learning has been
missing in literature. By carefully combining Q-learning with OTL and reverse
experience replay (RER) (a form of experience replay), we present novel methods
Q-Rex and Q-RexDaRe (Q-Rex + data reuse). We show that Q-Rex efficiently finds
the optimal policy for linear MDPs (or more generally for MDPs with zero
inherent Bellman error with linear approximation (ZIBEL)) and provide
non-asymptotic bounds on sample complexity -- the first such result for a
Q-learning method for this class of MDPs under standard assumptions.
Furthermore, we demonstrate that Q-RexDaRe in fact achieves near optimal sample
complexity in the tabular setting, improving upon the existing results for
vanilla Q-learning.
- Abstract(参考訳): Q-learningは一般的な強化学習(RL)アルゴリズムで、関数近似(Mnih et al., 2015)で広く使われている。
対照的に、既存の理論的結果はQ学習に関する悲観的である。
例えば (Baird, 1995) は、線形 MDP に対する線形関数近似でさえ Q-ラーニングは収束しないことを示した。
さらに,同期更新を施した表型MDPであっても,Qラーニングは準最適サンプルの複雑性が認められた(Li et al., 2021;Azar et al., 2013)。
本研究の目的は,q-learningの実践的成功と比較的悲観的な理論結果とのギャップを埋めることである。
私たちの研究の出発点は、実際、q-learningは2つの重要な変更で使われているという観察です。
(i)オンラインネットワークとターゲットネットワーク(online target learning, otl)と呼ばれる2つのネットワークによるトレーニング、及び
(II)エクスペリエンス・リプレイ(ER) (Mnih et al., 2015)。
Q-ラーニングの実践的成功に重要な役割を果たすことが観察されているが、これらの2つの修正がQ-ラーニングの収束挙動をどのように改善するかについての理論的理解は文献に欠落している。
OTLと逆体験再生(RER)を慎重に組み合わせることで、新しいQ-Rex法とQ-RexDaRe(Q-Rex + データ再利用)を提案する。
Q-Rex は線形 MDP に対して,線形近似(ZIBEL) によるゼロ固有なベルマン誤差を持つ MDP に対して,より効率的に最適条件を導出し,サンプルの複雑性を非漸近的に制限することを示し,これは標準仮定の下での MDP のクラスに対するQ-ラーニング手法における最初の結果である。
さらに,q-rexdareは表式設定においてほぼ最適のサンプル複雑性を達成し,既往の結果を改良できることを実証した。
関連論文リスト
- VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers [7.7705926659081275]
VerifierQは、オフラインQ学習を検証モデルに統合する新しいアプローチである。
LLMにQ-learningを適用する上での3つの課題に対処する。
本手法は,並列Q値計算と学習効率の向上を実現する。
論文 参考訳(メタデータ) (2024-10-10T15:43:55Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Sufficient Exploration for Convex Q-learning [10.75319149461189]
本稿では,マンヌの最適制御を線形プログラミング(LP)で定式化する。
原始版はロジスティックQラーニングと呼ばれ、二重版は凸Qラーニングである。
コンベックスQラーニングは,標準Qラーニングが分岐する場合に有効であることが示されている。
論文 参考訳(メタデータ) (2022-10-17T20:22:12Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。