論文の概要: The Effect of Q-function Reuse on the Total Regret of Tabular,
Model-Free, Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.04416v1
- Date: Sun, 7 Mar 2021 18:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 19:32:13.637530
- Title: The Effect of Q-function Reuse on the Total Regret of Tabular,
Model-Free, Reinforcement Learning
- Title(参考訳): モデルなし強化学習におけるQ-関数の再利用がトータルレグレットに及ぼす影響
- Authors: Volodymyr Tkachuk, Sriram Ganapathi Subramanian, Matthew E. Taylor
- Abstract要約: q$-関数再利用は、学習のサンプル複雑さを減らすための転送学習方法である。
UCB-Hoeffdingアルゴリズムを用いた$Q$-learningに適用した場合の$Q$-functionの再利用の有効性に関する理論的知見を提供する。
q$-関数の再利用がucb-hoeffdingアルゴリズムによる$q$-learningに適用された場合、状態やアクション空間とは無関係な後悔があることを示すことが私たちの大きな貢献です。
- 参考スコア(独自算出の注目度): 16.814435237303076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some reinforcement learning methods suffer from high sample complexity
causing them to not be practical in real-world situations. $Q$-function reuse,
a transfer learning method, is one way to reduce the sample complexity of
learning, potentially improving usefulness of existing algorithms. Prior work
has shown the empirical effectiveness of $Q$-function reuse for various
environments when applied to model-free algorithms. To the best of our
knowledge, there has been no theoretical work showing the regret of
$Q$-function reuse when applied to the tabular, model-free setting. We aim to
bridge the gap between theoretical and empirical work in $Q$-function reuse by
providing some theoretical insights on the effectiveness of $Q$-function reuse
when applied to the $Q$-learning with UCB-Hoeffding algorithm. Our main
contribution is showing that in a specific case if $Q$-function reuse is
applied to the $Q$-learning with UCB-Hoeffding algorithm it has a regret that
is independent of the state or action space. We also provide empirical results
supporting our theoretical findings.
- Abstract(参考訳): 一部の強化学習方法は、実世界では実用的ではない高いサンプル複雑性に苦しんでいます。
転送学習メソッドである$Q$-functionの再利用は、学習のサンプル複雑さを低減し、既存のアルゴリズムの有用性を向上させる1つの方法です。
これまでの研究は、モデルフリーアルゴリズムに適用した場合、様々な環境における$Q$-functionの再利用の実証的な効果を示してきた。
私たちの知る限りでは、表型でモデルフリーな設定に適用される場合、$q$-関数再利用の後悔を示す理論的研究は存在しません。
UCB-Hoeffdingアルゴリズムを用いた$Q$-learningに適用した場合の$Q$-functionの再利用効果に関する理論的知見を提供することで、$Q$-functionの再利用における理論的作業と経験的作業のギャップを埋めることを目指している。
q$-関数の再利用がucb-hoeffdingアルゴリズムによる$q$-learningに適用された場合、状態やアクション空間とは無関係な後悔があることを示すことが私たちの大きな貢献です。
また,理論的な知見を裏付ける実証的な結果も提供する。
関連論文リスト
- Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge [0.7918886297003017]
オンラインQ-ラーニング手法のサンプル複雑性について,動的知識が利用可能であったり,効率的に学習できたりした場合に検討する。
我々は,$f$の完全知識の下で,$tildemathcalO(textPoly(H)sqrtSAT)$ regretを達成する楽観的なQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-19T19:53:58Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Batch Value-function Approximation with Only Realizability [17.692408242465763]
バッチ強化学習(RL):探索データセットからQstar$を学習する。
我々のアルゴリズムであるBVFTは、トーナメントの手順を通じて硬さ予想(探索データというより強い概念の下では)を破る。
また、BVFTが他の拡張と開問題の間のモデル選択にどのように適用できるかについても論じる。
論文 参考訳(メタデータ) (2020-08-11T20:09:37Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。