論文の概要: Single-partition adaptive Q-learning
- arxiv url: http://arxiv.org/abs/2007.06741v1
- Date: Tue, 14 Jul 2020 00:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:39:15.496159
- Title: Single-partition adaptive Q-learning
- Title(参考訳): 単部適応Q-ラーニング
- Authors: Jo\~ao Pedro Ara\'ujo, M\'ario Figueiredo, Miguel Ayala Botto
- Abstract要約: SPAQL(Single-Partition Adaptive Q-learning)は、モデルなしのエピソード強化学習のためのアルゴリズムである。
多数のタイムステップを持つエピソードのテストでは、適応型Qラーニング(AQL)とは異なり、SPAQLにはスケーリングに問題はないことが示されている。
SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRLメソッドの分野に関連性がある、と我々は主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces single-partition adaptive Q-learning (SPAQL), an
algorithm for model-free episodic reinforcement learning (RL), which adaptively
partitions the state-action space of a Markov decision process (MDP), while
simultaneously learning a time-invariant policy (i. e., the mapping from states
to actions does not depend explicitly on the episode time step) for maximizing
the cumulative reward. The trade-off between exploration and exploitation is
handled by using a mixture of upper confidence bounds (UCB) and Boltzmann
exploration during training, with a temperature parameter that is automatically
tuned as training progresses. The algorithm is an improvement over adaptive
Q-learning (AQL). It converges faster to the optimal solution, while also using
fewer arms. Tests on episodes with a large number of time steps show that SPAQL
has no problems scaling, unlike AQL. Based on this empirical evidence, we claim
that SPAQL may have a higher sample efficiency than AQL, thus being a relevant
contribution to the field of efficient model-free RL methods.
- Abstract(参考訳): 本稿では、マルコフ決定過程(MDP)の状態空間を適応的に分割するモデルフリー・エピソード強化学習(RL)のアルゴリズムである単一分割適応Q-ラーニング(SPAQL)を紹介し、同時に時間不変ポリシー(例えば、状態から行動へのマッピングはエピソード時間ステップに依存しない)を学習し、累積報酬を最大化する。
探索と搾取の間のトレードオフは、訓練中にuper confidence bounds(ucb)とboltzmann exploration(ボルツマン探索)の混合物を使い、トレーニングの進捗に合わせて自動的に調整される温度パラメータを用いて処理される。
このアルゴリズムは適応型Q-ラーニング(AQL)よりも改善されている。
最適な解に速く収束すると同時に、より少ないアームを使用する。
多数のタイムステップを持つエピソードのテストでは、SPAQLはAQLとは異なり、スケーリングに問題はないことが示されている。
この経験的証拠に基づき、SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRL手法の分野における重要な貢献であると主張している。
関連論文リスト
- Online Statistical Inference for Time-varying Sample-averaged Q-learning [2.2374171443798034]
本稿では,バッチ平均Qラーニングの時間変化を,サンプル平均Qラーニングと呼ぶ。
本研究では, サンプル平均化アルゴリズムの正規性について, 温和な条件下での洞察を提供する新しい枠組みを開発する。
古典的なOpenAI Gym環境下で行った数値実験により、サンプル平均Q-ラーニングの時間変化は、シングルサンプルQ-ラーニングと定数バッチQ-ラーニングのどちらよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-14T17:17:19Z) - Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文 参考訳(メタデータ) (2024-05-30T05:04:33Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies [72.4573167739712]
Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングする。
この訓練されたQ-関数で表される値が実際にどのポリシーで達成されるのかは不明である。
我々はImplicit Q-learning (IDQL)を導入し、一般のIQL批判とポリシー抽出手法を組み合わせた。
論文 参考訳(メタデータ) (2023-04-20T18:04:09Z) - QLABGrad: a Hyperparameter-Free and Convergence-Guaranteed Scheme for
Deep Learning [6.555832619920502]
QLABGradと呼ばれる新しい学習率適応方式を提案する。
QLABGradは、所定の勾配降下方向に対して、Quadratic Loss Approximation-Based (QLAB)関数を最適化することにより、学習率を自動的に決定する。
論文 参考訳(メタデータ) (2023-02-01T05:29:10Z) - Beyond Exponentially Fast Mixing in Average-Reward Reinforcement
Learning via Multi-Level Monte Carlo Actor-Critic [61.968469104271676]
本稿では,アクター・アクターとアクター・アクター・アクター・アルゴリズムに埋め込まれた平均報酬に対して,マルチレベルモンテカルロ推定器を用いて混合時間に適応したRL手法を提案する。
不安定な報酬を伴うRL問題において,安定性に要求される技術的条件の緩和効果が,実用上優れた性能に変換されることを実験的に示す。
論文 参考訳(メタデータ) (2023-01-28T04:12:56Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z) - Control with adaptive Q-learning [0.0]
本稿では,RL学習のための2つのアルゴリズムについて検討する。
AQLは、制御ポリシを学習しながら、Markov決定プロセス(MDP)の状態-アクション空間を適応的に分割する。
SPAQLは、状態からアクションへのマッピングがタイムステップに明示的に依存しない、時間不変のポリシーを学ぶ。
論文 参考訳(メタデータ) (2020-11-03T18:58:55Z) - Lookahead-Bounded Q-Learning [8.738692817482526]
本稿では,新しいQ-ラーニング法であるルックアヘッドバウンドQ-ラーニングアルゴリズム(LBQL)を紹介する。
われわれのアプローチは、高価なシミュレーションや現実世界の対話を必要とする問題に特に魅力的である。
論文 参考訳(メタデータ) (2020-06-28T19:50:55Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Simultaneously Evolving Deep Reinforcement Learning Models using
Multifactorial Optimization [18.703421169342796]
この研究は、関連する強化学習タスクの解決に向けて、複数のDQLモデルを同時に進化させることのできるフレームワークを提案する。
フレームワークの性能を評価するために、徹底的な実験を行い、議論する。
論文 参考訳(メタデータ) (2020-02-25T10:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。