Fugu-MT 論文翻訳(概要): Approximate Q-learning and SARSA(0) under the $\epsilon$-greedy Policy: a Differential Inclusion Analysis

論文の概要: Approximate Q-learning and SARSA(0) under the $\epsilon$-greedy Policy: a Differential Inclusion Analysis

arxiv url: http://arxiv.org/abs/2205.13617v1
Date: Thu, 26 May 2022 20:46:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-30 15:27:27.304543
Title: Approximate Q-learning and SARSA(0) under the $\epsilon$-greedy Policy: a Differential Inclusion Analysis
Title（参考訳）: $\epsilon$-greedy Policyの下での近似Q-ラーニングとSARSA(0)--差分包摂分析
Authors: Aditya Gopalan, Gugan Thoppe
Abstract要約: グリード政策の不連続性は、これらのアルゴリズムが複雑な現象を示すことを実証的に知られている。我々の研究は、差分包摂と差分包摂(DI)を用いて必要な数学的枠組みを構築することでこの問題に対処している。これらの決定論的DIの性質は、これらのアルゴリズムの制限挙動を完全に支配している。
参考スコア（独自算出の注目度）: 22.785506969202675
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Q-learning and SARSA(0) with linear function approximation, under $\epsilon$-greedy exploration, are leading methods to estimate the optimal policy in Reinforcement Learning (RL). It has been empirically known that the discontinuous nature of the greedy policies causes these algorithms to exhibit complex phenomena such as i.) instability, ii.) policy oscillation and chattering, iii.) multiple attractors, and iv.) worst policy convergence. However, the literature lacks a formal recipe to explain these behaviors and this has been a long-standing open problem (Sutton, 1999). Our work addresses this by building the necessary mathematical framework using stochastic recursive inclusions and Differential Inclusions (DIs). From this novel viewpoint, our main result states that these approximate algorithms asymptotically converge to suitable invariant sets of DIs instead of differential equations, as is common elsewhere in RL. Furthermore, the nature of these deterministic DIs completely governs the limiting behaviors of these algorithms.
Abstract（参考訳）: q-learningと線形関数近似のsarsa(0)は、$\epsilon$-greedy探索の下で、強化学習(rl)の最適方針を推定する主要な方法である。グリーディポリシーの不連続性は、これらのアルゴリズムが i のような複雑な現象を示すことを実証的に知られている。 ) 不安定性, ii。 )政策の揺らぎとおしゃべり,iii。 ) 複数の誘引者, iv。 ) 最悪の政策収束。しかし、これらの振る舞いを説明する公式なレシピが欠けており、これは長年の未解決問題であった(Sutton, 1999)。我々の研究は、確率的再帰包含と微分包含(DI)を用いて必要な数学的枠組みを構築することでこの問題に対処する。この新たな観点から,これらの近似アルゴリズムは微分方程式の代わりにdisの適切な不変集合に漸近的に収束することを示す。さらに、これらの決定論的disの性質は、これらのアルゴリズムの制限行動を完全に支配する。

関連論文リスト

On the Convergence and Sample Complexity Analysis of Deep Q-Networks with $\epsilon$-Greedy Exploration [86.71396285956044]
本稿では,深層強化学習における$varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
論文参考訳（メタデータ） (2023-10-24T20:37:02Z)
Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。ソフトマージン条件下でのバニラQ関数の類似した結果を示す。我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文参考訳（メタデータ） (2023-02-05T14:22:41Z)
Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。 EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文参考訳（メタデータ） (2023-01-05T23:14:38Z)
Elastic Step DQN: A novel multi-step algorithm to alleviate overestimation in Deep QNetworks [2.781147009075454]
Deep Q-Networksアルゴリズム(DQN)は、多くのAtari学習環境において、人間のレベルパフォーマンスを上回るためにディープニューラルネットワークを使用した最初の強化学習アルゴリズムである。不安定な振る舞いはしばしば、過大評価バイアスと呼ばれる$Q$-値の過大評価によって特徴づけられる。本稿では,訪問状態の類似性に基づいて,複数ステップ更新におけるステップサイズ水平度を動的に変化させるアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-07T04:56:04Z)
Sampling Efficient Deep Reinforcement Learning through Preference-Guided Stochastic Exploration [8.612437964299414]
我々は、Deep Q-network (DQN) のための選好誘導$epsilon$-greedy探索アルゴリズムを提案する。選好誘導探索はDQNエージェントの多様な行動、すなわちより大きなQ値のアクションをより頻繁にサンプリングできるのに対して、より小さなQ値のアクションは依然として探索可能な機会を持ち、探索を促進することを示している。
論文参考訳（メタデータ） (2022-06-20T08:23:49Z)
Mildly Conservative Q-Learning for Offline Reinforcement Learning [63.2183622958666]
オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
論文参考訳（メタデータ） (2022-06-09T19:44:35Z)
Can Q-learning solve Multi Armed Bantids? [0.0]
現在の強化学習アルゴリズムでは,マルチアーマッド・バンディット問題を解くことができないことを示す。これはポリシー間の差異が原因であり、2つの問題を引き起こす。本稿では,アダプティブ・シンメトリ・リワード・ノーミング(ASRN)手法を提案する。
論文参考訳（メタデータ） (2021-10-21T07:08:30Z)
Online Target Q-learning with Reverse Experience Replay: Efficiently finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。本稿では,新しいQ-Rex法とQ-RexDaReを提案する。 Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文参考訳（メタデータ） (2021-10-16T01:47:41Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
A Convergent and Efficient Deep Q Network Algorithm [3.553493344868414]
深部Qネットワーク(DQN)強化学習アルゴリズムは,現実的な環境での動作を多様化し,停止することができることを示す。本稿では,DQNを慎重に修正した収束DQNアルゴリズム(C-DQN)を提案する。難しい環境でしっかりと学習し、Atari 2600ベンチマークでいくつかの難しいゲームを学ぶことができる。
論文参考訳（メタデータ） (2021-06-29T13:38:59Z)
Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文参考訳（メタデータ） (2020-12-02T11:36:24Z)
Policy Gradient for Continuing Tasks in Non-stationary Markov Decision Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文参考訳（メタデータ） (2020-10-16T15:15:42Z)
Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文参考訳（メタデータ） (2020-09-29T18:48:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。