論文の概要: Proximal Policy Optimization for Tracking Control Exploiting Future
Reference Information
- arxiv url: http://arxiv.org/abs/2107.09647v1
- Date: Tue, 20 Jul 2021 17:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 14:42:42.087104
- Title: Proximal Policy Optimization for Tracking Control Exploiting Future
Reference Information
- Title(参考訳): 今後の基準情報に対する追従制御の最適化
- Authors: Jana Mayer, Johannes Westermann, Juan Pedro Guti\'errez H. Muriedas,
Uwe Mettin, Alexander Lampe
- Abstract要約: 本研究では、任意の参照信号に対する近位勾配ポリシー最適化(PPO)の追跡性能を、将来の参照値を組み込んで改善する。
本手法は、単純な駆動列車モデル上でPIコントローラに対して評価される。
- 参考スコア(独自算出の注目度): 58.720142291102135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, reinforcement learning (RL) has gained increasing attention
in control engineering. Especially, policy gradient methods are widely used. In
this work, we improve the tracking performance of proximal policy optimization
(PPO) for arbitrary reference signals by incorporating information about future
reference values. Two variants of extending the argument of the actor and the
critic taking future reference values into account are presented. In the first
variant, global future reference values are added to the argument. For the
second variant, a novel kind of residual space with future reference values
applicable to model-free reinforcement learning is introduced. Our approach is
evaluated against a PI controller on a simple drive train model. We expect our
method to generalize to arbitrary references better than previous approaches,
pointing towards the applicability of RL to control real systems.
- Abstract(参考訳): 近年、強化学習(RL)は制御工学において注目を集めている。
特に政策勾配法は広く用いられている。
本研究では,将来の参照値に関する情報を取り入れることで,任意の参照信号に対する近位ポリシー最適化(ppo)の追跡性能を向上させる。
将来的な参照値を考慮したアクターと批評家の議論を拡張する2つのバリエーションを示す。
第1の変種では、引数にグローバル未来参照値が追加される。
第2の変種では、モデルフリー強化学習に適用可能な将来の参照値を持つ新しい種類の残留空間が導入された。
本手法は、単純な駆動列車モデル上でPIコントローラに対して評価される。
提案手法は,実システム制御におけるRLの適用性に着目し,従来の手法よりも任意の参照への一般化を期待する。
関連論文リスト
- Model-based adaptation for sample efficient transfer in reinforcement
learning control of parameter-varying systems [1.8799681615947088]
我々はモデルに基づく制御のアイデアを活用し、強化学習アルゴリズムのサンプル効率問題に対処する。
また,本手法は強化学習のみでの微調整よりもサンプリング効率が高いことを示した。
論文 参考訳(メタデータ) (2023-05-20T10:11:09Z) - Model-based trajectory stitching for improved behavioural cloning and
its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。
古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文 参考訳(メタデータ) (2022-12-08T14:18:04Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - A Parametric Class of Approximate Gradient Updates for Policy
Optimization [47.69337420768319]
我々は、勾配形式とスケーリング関数の限定的な選択の観点から、基礎となる更新を再表現する統一的な視点を開発する。
我々は、収束速度と最終的な結果品質の両方の利点をもたらすことができる方法で、既存のアルゴリズムを一般化する、新しいが、動機のよい更新を得る。
論文 参考訳(メタデータ) (2022-06-17T01:28:38Z) - Foresee then Evaluate: Decomposing Value Estimation with Latent Future
Prediction [37.06232589005015]
価値関数は強化学習(rl)の中心的な概念である
将来予測付き価値分解(VDFP)を提案する。
価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
論文 参考訳(メタデータ) (2021-03-03T07:28:56Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。