論文の概要: Control with adaptive Q-learning
- arxiv url: http://arxiv.org/abs/2011.02141v1
- Date: Tue, 3 Nov 2020 18:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 05:37:11.675369
- Title: Control with adaptive Q-learning
- Title(参考訳): 適応型q-learningによる制御
- Authors: Jo\~ao Pedro Ara\'ujo and M\'ario A. T. Figueiredo and Miguel Ayala
Botto
- Abstract要約: 本稿では,RL学習のための2つのアルゴリズムについて検討する。
AQLは、制御ポリシを学習しながら、Markov決定プロセス(MDP)の状態-アクション空間を適応的に分割する。
SPAQLは、状態からアクションへのマッピングがタイムステップに明示的に依存しない、時間不変のポリシーを学ぶ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper evaluates adaptive Q-learning (AQL) and single-partition adaptive
Q-learning (SPAQL), two algorithms for efficient model-free episodic
reinforcement learning (RL), in two classical control problems (Pendulum and
Cartpole). AQL adaptively partitions the state-action space of a Markov
decision process (MDP), while learning the control policy, i. e., the mapping
from states to actions. The main difference between AQL and SPAQL is that the
latter learns time-invariant policies, where the mapping from states to actions
does not depend explicitly on the time step. This paper also proposes the SPAQL
with terminal state (SPAQL-TS), an improved version of SPAQL tailored for the
design of regulators for control problems. The time-invariant policies are
shown to result in a better performance than the time-variant ones in both
problems studied. These algorithms are particularly fitted to RL problems where
the action space is finite, as is the case with the Cartpole problem. SPAQL-TS
solves the OpenAI Gym Cartpole problem, while also displaying a higher sample
efficiency than trust region policy optimization (TRPO), a standard RL
algorithm for solving control tasks. Moreover, the policies learned by SPAQL
are interpretable, while TRPO policies are typically encoded as neural
networks, and therefore hard to interpret. Yielding interpretable policies
while being sample-efficient are the major advantages of SPAQL.
- Abstract(参考訳): 本稿では,適応Q-ラーニング(AQL)と単一分割適応Q-ラーニング(SPAQL)を2つの古典的制御問題(PendulumとCartpole)で評価した。
AQLは、制御ポリシーを学習しながら、マルコフ決定プロセス(MDP)の状態-アクション空間を適応的に分割する。
e.
状態からアクションへのマッピング。
AQLとSPAQLの主な違いは、状態からアクションへのマッピングがタイムステップに明示的に依存しない、時間不変のポリシを学ぶことだ。
本稿では,制御問題に対するレギュレータの設計に適したSPAQLの改良版である端末状態付きSPAQL(SPAQL-TS)を提案する。
時間不変ポリシーは、どちらの問題においても、時間不変ポリシーよりも優れたパフォーマンスをもたらすことが示されている。
これらのアルゴリズムは、カルトポール問題と同様に、作用空間が有限であるRL問題に特に適合する。
SPAQL-TSはOpenAI Gym Cartpole問題を解決すると同時に、コントロールタスクを解決するための標準RLアルゴリズムである信頼領域ポリシー最適化(TRPO)よりも高いサンプリング効率を示す。
さらに、SPAQLで学んだポリシーは解釈可能であり、TRPOポリシーは一般的にニューラルネットワークとしてエンコードされるため、解釈が困難である。
SPAQLの大きなメリットは、解釈可能なポリシをサンプル効率で取得することです。
関連論文リスト
- AlignIQL: Policy Alignment in Implicit Q-Learning through Constrained Optimization [9.050431569438636]
暗黙のQ-ラーニングはオフラインRLの強力なベースラインとして機能する。
我々は,この問題を最適化問題として定式化することで,暗黙的な政策決定問題(IPF)を解決する方法を紹介した。
IQLやIDQLと比較して、当社のメソッドはIQLの単純さを維持し、暗黙のポリシー決定問題を解決する。
論文 参考訳(メタデータ) (2024-05-28T14:01:03Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies [72.4573167739712]
Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングする。
この訓練されたQ-関数で表される値が実際にどのポリシーで達成されるのかは不明である。
我々はImplicit Q-learning (IDQL)を導入し、一般のIQL批判とポリシー抽出手法を組み合わせた。
論文 参考訳(メタデータ) (2023-04-20T18:04:09Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Processing Network Controls via Deep Reinforcement Learning [0.0]
論文は、理論上の正当化と、高度なポリシー勾配アルゴリズムの実用化に関するものである。
政策改善バウンダリは、APGアルゴリズムの理論的正当性において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-05-01T04:34:21Z) - Single-partition adaptive Q-learning [0.0]
SPAQL(Single-Partition Adaptive Q-learning)は、モデルなしのエピソード強化学習のためのアルゴリズムである。
多数のタイムステップを持つエピソードのテストでは、適応型Qラーニング(AQL)とは異なり、SPAQLにはスケーリングに問題はないことが示されている。
SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRLメソッドの分野に関連性がある、と我々は主張する。
論文 参考訳(メタデータ) (2020-07-14T00:03:25Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。