論文の概要: Can Q-Learning be Improved with Advice?
- arxiv url: http://arxiv.org/abs/2110.13052v1
- Date: Mon, 25 Oct 2021 15:44:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 14:15:14.881377
- Title: Can Q-Learning be Improved with Advice?
- Title(参考訳): Q-Learningはアドバイスで改善できるか?
- Authors: Noah Golowich, Ankur Moitra
- Abstract要約: 本稿では,マルコフ決定過程(MDP)のオンライン学習において,後悔に対する最悪の下限を回避できるかどうかを論じる。
最適$Q$-値関数の予測が蒸留と呼ばれる合理的に弱い条件を満たす場合、状態-作用対の集合を、その予測が極端に不正確な状態-作用対の集合に置き換えることで、後悔境界を改善することができることを示す。
私たちの研究は、キャッシュやスケジューリングといった単純なオンライン問題に重点を置いていた予測を伴うアルゴリズムに関する最近の研究を、強化学習のより複雑で一般的な問題へと拡張しています。
- 参考スコア(独自算出の注目度): 27.24260290748049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid progress in theoretical reinforcement learning (RL) over the
last few years, most of the known guarantees are worst-case in nature, failing
to take advantage of structure that may be known a priori about a given RL
problem at hand. In this paper we address the question of whether worst-case
lower bounds for regret in online learning of Markov decision processes (MDPs)
can be circumvented when information about the MDP, in the form of predictions
about its optimal $Q$-value function, is given to the algorithm. We show that
when the predictions about the optimal $Q$-value function satisfy a reasonably
weak condition we call distillation, then we can improve regret bounds by
replacing the set of state-action pairs with the set of state-action pairs on
which the predictions are grossly inaccurate. This improvement holds for both
uniform regret bounds and gap-based ones. Further, we are able to achieve this
property with an algorithm that achieves sublinear regret when given arbitrary
predictions (i.e., even those which are not a distillation). Our work extends a
recent line of work on algorithms with predictions, which has typically focused
on simple online problems such as caching and scheduling, to the more complex
and general problem of reinforcement learning.
- Abstract(参考訳): 過去数年間、理論強化学習(RL)が急速に進歩したにもかかわらず、既知の保証のほとんどは本質的に最悪のケースであり、与えられたRL問題に先立って知られていた構造を活用できない。
本稿では,マルコフ決定過程(mdps)のオンライン学習における後悔に対する最悪の下限が,mdpに関する情報が最適な$q$-value関数に関する予測の形でアルゴリズムに与えられれば回避できるかどうかという問題に対処する。
最適な$q$-値関数に関する予測が蒸留と呼ばれる合理的な弱条件を満たすと、状態-作用ペアのセットを、予測が著しく不正確である状態-作用ペアのセットに置き換えることで、後悔の境界を改善することができることを示す。
この改善は、均一な後悔境界とギャップベースの両方に当てはまる。
さらに、任意の予測(蒸留でないものでさえも)を与えられたときのサブ線形後悔を実現するアルゴリズムにより、この特性を達成することができる。
私たちの研究は、キャッシュやスケジューリングといった単純なオンライン問題に焦点を当てた予測アルゴリズムに関する最近の作業から、強化学習のより複雑で一般的な問題へと拡張しています。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - Constrained Online Two-stage Stochastic Optimization: Algorithm with
(and without) Predictions [19.537289123577022]
有限地平線上の長期制約付きオンライン2段階最適化をT$周期で検討する。
対戦型学習アルゴリズムからオンライン二段階問題のオンラインアルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-01-02T07:46:33Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Double Coverage with Machine-Learned Advice [100.23487145400833]
オンラインの基本的な$k$-serverの問題を学習強化環境で研究する。
我々のアルゴリズムは任意の k に対してほぼ最適の一貫性-破壊性トレードオフを達成することを示す。
論文 参考訳(メタデータ) (2021-03-02T11:04:33Z) - Exact Asymptotics for Linear Quadratic Adaptive Control [6.287145010885044]
最も単純な非帯域強化学習問題である線形二次制御(LQAC)について検討する。
ステップワイズ更新LQACアルゴリズムの残差,推定誤差,予測誤差の式を導出する。
安定系と不安定系のシミュレーションにおいて、我々の理論はアルゴリズムの有限サンプル挙動を著しくよく記述している。
論文 参考訳(メタデータ) (2020-11-02T22:43:30Z) - Optimal Robustness-Consistency Trade-offs for Learning-Augmented Online
Algorithms [85.97516436641533]
機械学習予測を取り入れたオンラインアルゴリズムの性能向上の課題について検討する。
目標は、一貫性と堅牢性の両方を備えたアルゴリズムを設計することだ。
機械学習予測を用いた競合解析のための非自明な下界の最初のセットを提供する。
論文 参考訳(メタデータ) (2020-10-22T04:51:01Z) - Towards Tractable Optimism in Model-Based Reinforcement Learning [37.51073590932658]
成功させるためには、楽観的なRLアルゴリズムは真の値関数(最適化)を過大に見積もる必要があるが、不正確な(推定誤差)ほどではない。
我々は,これらのスケーラブルな楽観的モデルベースアルゴリズムを,トラクタブルノイズ拡張MDPの解法として再解釈する。
この誤差が低減された場合、楽観的なモデルベースRLアルゴリズムは、連続制御問題における最先端性能と一致することを示す。
論文 参考訳(メタデータ) (2020-06-21T20:53:19Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。