論文の概要: Target Network and Truncation Overcome The Deadly triad in $Q$-Learning
- arxiv url: http://arxiv.org/abs/2203.02628v1
- Date: Sat, 5 Mar 2022 00:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 09:00:55.943539
- Title: Target Network and Truncation Overcome The Deadly triad in $Q$-Learning
- Title(参考訳): ターゲットネットワークと切断が$q$-learningで致命的な三つ組を克服
- Authors: Zaiwei Chen, John Paul Clarke, and Siva Theja Maguluri
- Abstract要約: 本稿では,ターゲットネットワークとトランケーションを用いた線形関数近似を用いた$Q$-learningの安定設計を提案する。
この結果から,関数近似誤差まで,$mathcalO(epsilon-2)$サンプルの複雑さが示唆された。
これは線形関数近似による$Q$-learningの最初の変種であり、強い仮定や問題パラメータの変更を必要とせず、確実に安定である。
- 参考スコア(独自算出の注目度): 7.532013242448151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: $Q$-learning with function approximation is one of the most empirically
successful while theoretically mysterious reinforcement learning (RL)
algorithms, and was identified in Sutton (1999) as one of the most important
theoretical open problems in the RL community. Even in the basic linear
function approximation setting, there are well-known divergent examples. In
this work, we propose a stable design for $Q$-learning with linear function
approximation using target network and truncation, and establish its
finite-sample guarantees. Our result implies an $\mathcal{O}(\epsilon^{-2})$
sample complexity up to a function approximation error. This is the first
variant of $Q$-learning with linear function approximation that is provably
stable without requiring strong assumptions or modifying the problem
parameters, and achieves the optimal sample complexity.
- Abstract(参考訳): Q$-learning with function approximation は、理論上は謎の強化学習(RL)アルゴリズムの実証的な成功の1つであり、Sutton (1999) では、RLコミュニティで最も重要な理論上のオープンな問題の一つとして特定されている。
基本線形関数近似設定においても、よく知られた発散例がある。
本研究では,対象ネットワークと切断を用いた線形関数近似を用いた$q$-learningの安定設計を提案し,その有限サンプル保証を確立する。
我々の結果は、関数近似誤差まで、$\mathcal{O}(\epsilon^{-2})$サンプルの複雑さを意味する。
これは線形関数近似による$Q$-learningの最初の変種であり、強い仮定や問題パラメータを変更することなく確実に安定であり、最適なサンプル複雑性を実現する。
関連論文リスト
- A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - On the Model-Misspecification in Reinforcement Learning [9.864462523050843]
本稿では,強化学習におけるモデルの誤特定に対処するための統一的理論的枠組みを提案する。
本研究では,値に基づく手法とモデルに基づく手法が,局所的不特定誤差境界の下で頑健性を実現することを示す。
また、$zeta$の事前知識なしで同じ後悔の順序を達成できるアルゴリズム的フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T04:31:59Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Is Plug-in Solver Sample-Efficient for Feature-based Reinforcement
Learning? [30.065091907118827]
本研究は,マルコフ決定過程(MDP)における$epsilon$-optimal Policyの発見の複雑さについて考察する。
実験モデルを構築し,任意のプラグインソルバを用いて実験モデルを計画するプラグインソルバ手法を用いてこの問題を解決する。
プラグインアプローチはサンプル効率も向上し,強化学習のためのモデルベースアルゴリズムを設計するための柔軟なアプローチを提供する。
論文 参考訳(メタデータ) (2020-10-12T13:13:01Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。