論文の概要: Deep Reinforcement Learning with Embedded LQR Controllers
- arxiv url: http://arxiv.org/abs/2101.07175v1
- Date: Mon, 18 Jan 2021 17:28:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 05:46:06.255317
- Title: Deep Reinforcement Learning with Embedded LQR Controllers
- Title(参考訳): 組込みLQRコントローラによる深層強化学習
- Authors: Wouter Caarls
- Abstract要約: 本稿では,LQR制御をアクションセットに統合し,リプレイメモリにおける計算制御の一般化と回避を可能にする手法を提案する。
いずれの場合も、LQR制御の追加はパフォーマンスを向上させることができるが、離散的なアクションセットを強化するために使用できる場合、効果はより重大である。
- 参考スコア(独自算出の注目度): 1.256413718364189
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning is a model-free optimal control method that optimizes
a control policy through direct interaction with the environment. For reaching
tasks that end in regulation, popular discrete-action methods are not well
suited due to chattering in the goal state. We compare three different ways to
solve this problem through combining reinforcement learning with classical LQR
control. In particular, we introduce a method that integrates LQR control into
the action set, allowing generalization and avoiding fixing the computed
control in the replay memory if it is based on learned dynamics. We also embed
LQR control into a continuous-action method. In all cases, we show that adding
LQR control can improve performance, although the effect is more profound if it
can be used to augment a discrete action set.
- Abstract(参考訳): 強化学習は、環境との直接相互作用を通じて制御ポリシーを最適化するモデルフリーの最適制御方法である。
規制に終止符を打つタスクには、ゴール状態のチャタリングのため、一般的な離散アクションメソッドが適していない。
強化学習と古典的lqr制御を組み合わせることで,この問題を解決する3つの方法を比較した。
特に,LQR制御をアクションセットに統合し,学習力学に基づく場合のリプレイメモリにおける計算制御の一般化と修正を回避する手法を提案する。
また,LQR制御を連続動作法に組み込む。
いずれの場合においても、lqr制御の追加によりパフォーマンスが向上するが、個別のアクションセットの強化に使用できる場合、その効果はより深くなる。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Residual Feedback Learning for Contact-Rich Manipulation Tasks with
Uncertainty [22.276925045008788]
emphglsrplは強化学習(RL)で既存のコントローラを改善するための定式化を提供する
位置・方向の不確実性を考慮したコンタクトリッチペグ挿入作業において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-08T13:06:35Z) - Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文 参考訳(メタデータ) (2021-01-20T11:23:35Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z) - Optimal PID and Antiwindup Control Design as a Reinforcement Learning
Problem [3.131740922192114]
DRL制御法の解釈可能性に着目した。
特に、線形固定構造コントローラをアクター・クリティカル・フレームワークに埋め込まれた浅層ニューラルネットワークとみなす。
論文 参考訳(メタデータ) (2020-05-10T01:05:26Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。