論文の概要: Approximate Q-learning and SARSA(0) under the $\epsilon$-greedy Policy:
a Differential Inclusion Analysis
- arxiv url: http://arxiv.org/abs/2205.13617v1
- Date: Thu, 26 May 2022 20:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 15:27:27.304543
- Title: Approximate Q-learning and SARSA(0) under the $\epsilon$-greedy Policy:
a Differential Inclusion Analysis
- Title(参考訳): $\epsilon$-greedy Policyの下での近似Q-ラーニングとSARSA(0)--差分包摂分析
- Authors: Aditya Gopalan, Gugan Thoppe
- Abstract要約: グリード政策の不連続性は、これらのアルゴリズムが複雑な現象を示すことを実証的に知られている。
我々の研究は、差分包摂と差分包摂(DI)を用いて必要な数学的枠組みを構築することでこの問題に対処している。
これらの決定論的DIの性質は、これらのアルゴリズムの制限挙動を完全に支配している。
- 参考スコア(独自算出の注目度): 22.785506969202675
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Q-learning and SARSA(0) with linear function approximation, under
$\epsilon$-greedy exploration, are leading methods to estimate the optimal
policy in Reinforcement Learning (RL). It has been empirically known that the
discontinuous nature of the greedy policies causes these algorithms to exhibit
complex phenomena such as i.) instability, ii.) policy oscillation and
chattering, iii.) multiple attractors, and iv.) worst policy convergence.
However, the literature lacks a formal recipe to explain these behaviors and
this has been a long-standing open problem (Sutton, 1999). Our work addresses
this by building the necessary mathematical framework using stochastic
recursive inclusions and Differential Inclusions (DIs). From this novel
viewpoint, our main result states that these approximate algorithms
asymptotically converge to suitable invariant sets of DIs instead of
differential equations, as is common elsewhere in RL. Furthermore, the nature
of these deterministic DIs completely governs the limiting behaviors of these
algorithms.
- Abstract(参考訳): q-learningと線形関数近似のsarsa(0)は、$\epsilon$-greedy探索の下で、強化学習(rl)の最適方針を推定する主要な方法である。
グリーディポリシーの不連続性は、これらのアルゴリズムが i のような複雑な現象を示すことを実証的に知られている。
) 不安定性, ii。
)政策の揺らぎとおしゃべり,iii。
) 複数の誘引者, iv。
) 最悪の政策収束。
しかし、これらの振る舞いを説明する公式なレシピが欠けており、これは長年の未解決問題であった(Sutton, 1999)。
我々の研究は、確率的再帰包含と微分包含(DI)を用いて必要な数学的枠組みを構築することでこの問題に対処する。
この新たな観点から,これらの近似アルゴリズムは微分方程式の代わりにdisの適切な不変集合に漸近的に収束することを示す。
さらに、これらの決定論的disの性質は、これらのアルゴリズムの制限行動を完全に支配する。
関連論文リスト
- On the Convergence and Sample Complexity Analysis of Deep Q-Networks
with $\epsilon$-Greedy Exploration [86.71396285956044]
本稿では,深層強化学習における$varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
論文 参考訳(メタデータ) (2023-10-24T20:37:02Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - Sampling Efficient Deep Reinforcement Learning through Preference-Guided
Stochastic Exploration [8.612437964299414]
我々は、Deep Q-network (DQN) のための選好誘導$epsilon$-greedy探索アルゴリズムを提案する。
選好誘導探索はDQNエージェントの多様な行動、すなわちより大きなQ値のアクションをより頻繁にサンプリングできるのに対して、より小さなQ値のアクションは依然として探索可能な機会を持ち、探索を促進することを示している。
論文 参考訳(メタデータ) (2022-06-20T08:23:49Z) - Mildly Conservative Q-Learning for Offline Reinforcement Learning [63.2183622958666]
オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。
既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。
我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
論文 参考訳(メタデータ) (2022-06-09T19:44:35Z) - Can Q-learning solve Multi Armed Bantids? [0.0]
現在の強化学習アルゴリズムでは,マルチアーマッド・バンディット問題を解くことができないことを示す。
これはポリシー間の差異が原因であり、2つの問題を引き起こす。
本稿では,アダプティブ・シンメトリ・リワード・ノーミング(ASRN)手法を提案する。
論文 参考訳(メタデータ) (2021-10-21T07:08:30Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - A Convergent and Efficient Deep Q Network Algorithm [3.553493344868414]
深部Qネットワーク(DQN)強化学習アルゴリズムは,現実的な環境での動作を多様化し,停止することができることを示す。
本稿では,DQNを慎重に修正した収束DQNアルゴリズム(C-DQN)を提案する。
難しい環境でしっかりと学習し、Atari 2600ベンチマークでいくつかの難しいゲームを学ぶことができる。
論文 参考訳(メタデータ) (2021-06-29T13:38:59Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。