論文の概要: Approximate Q-learning and SARSA(0) under the $\epsilon$-greedy Policy:
a Differential Inclusion Analysis
- arxiv url: http://arxiv.org/abs/2205.13617v1
- Date: Thu, 26 May 2022 20:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 15:27:27.304543
- Title: Approximate Q-learning and SARSA(0) under the $\epsilon$-greedy Policy:
a Differential Inclusion Analysis
- Title(参考訳): $\epsilon$-greedy Policyの下での近似Q-ラーニングとSARSA(0)--差分包摂分析
- Authors: Aditya Gopalan, Gugan Thoppe
- Abstract要約: グリード政策の不連続性は、これらのアルゴリズムが複雑な現象を示すことを実証的に知られている。
我々の研究は、差分包摂と差分包摂(DI)を用いて必要な数学的枠組みを構築することでこの問題に対処している。
これらの決定論的DIの性質は、これらのアルゴリズムの制限挙動を完全に支配している。
- 参考スコア(独自算出の注目度): 22.785506969202675
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Q-learning and SARSA(0) with linear function approximation, under
$\epsilon$-greedy exploration, are leading methods to estimate the optimal
policy in Reinforcement Learning (RL). It has been empirically known that the
discontinuous nature of the greedy policies causes these algorithms to exhibit
complex phenomena such as i.) instability, ii.) policy oscillation and
chattering, iii.) multiple attractors, and iv.) worst policy convergence.
However, the literature lacks a formal recipe to explain these behaviors and
this has been a long-standing open problem (Sutton, 1999). Our work addresses
this by building the necessary mathematical framework using stochastic
recursive inclusions and Differential Inclusions (DIs). From this novel
viewpoint, our main result states that these approximate algorithms
asymptotically converge to suitable invariant sets of DIs instead of
differential equations, as is common elsewhere in RL. Furthermore, the nature
of these deterministic DIs completely governs the limiting behaviors of these
algorithms.
- Abstract(参考訳): q-learningと線形関数近似のsarsa(0)は、$\epsilon$-greedy探索の下で、強化学習(rl)の最適方針を推定する主要な方法である。
グリーディポリシーの不連続性は、これらのアルゴリズムが i のような複雑な現象を示すことを実証的に知られている。
) 不安定性, ii。
)政策の揺らぎとおしゃべり,iii。
) 複数の誘引者, iv。
) 最悪の政策収束。
しかし、これらの振る舞いを説明する公式なレシピが欠けており、これは長年の未解決問題であった(Sutton, 1999)。
我々の研究は、確率的再帰包含と微分包含(DI)を用いて必要な数学的枠組みを構築することでこの問題に対処する。
この新たな観点から,これらの近似アルゴリズムは微分方程式の代わりにdisの適切な不変集合に漸近的に収束することを示す。
さらに、これらの決定論的disの性質は、これらのアルゴリズムの制限行動を完全に支配する。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Inverse Reinforcement Learning with Explicit Policy Estimates [19.159290496678004]
逆強化学習問題を解くための様々な手法が、機械学習と経済学において独立に開発された。
我々は、それらがすべて共通の形態の勾配、関連する政策と目的によって特徴づけられる最適化問題のクラスに属していることを示しています。
この最適化問題の研究から得られた知見を用いて,様々な問題シナリオを特定し,それらの問題に対する各手法の適合性について検討する。
論文 参考訳(メタデータ) (2021-03-04T07:00:58Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Understanding the Pathologies of Approximate Policy Evaluation when
Combined with Greedification in Reinforcement Learning [11.295757620340899]
値関数近似を用いた強化学習の理論は、基本的に不完全である。
これまでの研究は、RLアルゴリズムで生じる様々な病理的行動を特定しており、これは政治上の評価と欲求化を近似するものである。
我々は、ポリシーの振動と複数の固定点に加えて、同じ基本的な問題が、与えられた近似に対する最悪のポリシーに収束する可能性があることを示す例を示す。
論文 参考訳(メタデータ) (2020-10-28T22:57:57Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Variational Policy Gradient Method for Reinforcement Learning with
General Utilities [38.54243339632217]
近年,累積報酬の合計を超える総合目標を持つ強化学習システムが注目を集めている。
本稿では,一般的な凹凸ユーティリティ関数を対象とする決定問題におけるポリシーについて考察する。
汎用性を持つRLの新しい変分ポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2020-07-04T17:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。