論文の概要: Jointly Learning Environments and Control Policies with Projected
Stochastic Gradient Ascent
- arxiv url: http://arxiv.org/abs/2006.01738v4
- Date: Thu, 6 Jan 2022 12:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 23:36:48.246424
- Title: Jointly Learning Environments and Control Policies with Projected
Stochastic Gradient Ascent
- Title(参考訳): 確率的勾配上昇を用いた共同学習環境と制御政策
- Authors: Adrien Bolland, Ioannis Boukas, Mathias Berger, Damien Ernst
- Abstract要約: この問題を解決するために,政策勾配法とモデルに基づく最適化手法を組み合わせた深層強化学習アルゴリズムを提案する。
本質的に,本アルゴリズムはモンテカルロサンプリングと自動微分によって予測されるリターンの勾配を反復的に近似する。
DEPSは、少なくとも3つの環境では、より少ないイテレーションで高いリターンのソリューションを一貫して得ることができる、ということが示されます。
- 参考スコア(独自算出の注目度): 3.118384520557952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the joint design and control of discrete-time stochastic
dynamical systems over a finite time horizon. We formulate the problem as a
multi-step optimization problem under uncertainty seeking to identify a system
design and a control policy that jointly maximize the expected sum of rewards
collected over the time horizon considered. The transition function, the reward
function and the policy are all parametrized, assumed known and differentiable
with respect to their parameters. We then introduce a deep reinforcement
learning algorithm combining policy gradient methods with model-based
optimization techniques to solve this problem. In essence, our algorithm
iteratively approximates the gradient of the expected return via Monte-Carlo
sampling and automatic differentiation and takes projected gradient ascent
steps in the space of environment and policy parameters. This algorithm is
referred to as Direct Environment and Policy Search (DEPS). We assess the
performance of our algorithm in three environments concerned with the design
and control of a mass-spring-damper system, a small-scale off-grid power system
and a drone, respectively. In addition, our algorithm is benchmarked against a
state-of-the-art deep reinforcement learning algorithm used to tackle joint
design and control problems. We show that DEPS performs at least as well or
better in all three environments, consistently yielding solutions with higher
returns in fewer iterations. Finally, solutions produced by our algorithm are
also compared with solutions produced by an algorithm that does not jointly
optimize environment and policy parameters, highlighting the fact that higher
returns can be achieved when joint optimization is performed.
- Abstract(参考訳): 有限時間地平線上での離散時間確率力学系の結合設計と制御について考察する。
本研究では,システム設計の特定を求める不確実性の下での多段階最適化問題と,検討対象の時間的地平線上で収集した報奨の総和を最大化するための制御ポリシを定式化する。
遷移関数、報酬関数、およびポリシーはすべてパラメーターに対してパラメータ化され、推定され、微分可能である。
そこで本研究では,ポリシー勾配法とモデルに基づく最適化手法を組み合わせた深層強化学習アルゴリズムを提案する。
本アルゴリズムは, モンテカルロサンプリングと自動微分による予測回帰の勾配を反復的に近似し, 環境パラメータと政策パラメータの空間における勾配上昇ステップを投影する。
このアルゴリズムは、Direct Environment and Policy Search (DEPS)と呼ばれる。
本研究では, マススプリングダンパシステム, 小型オフグリッド電力システム, ドローンの設計と制御に関する3つの環境において, 本アルゴリズムの性能を評価する。
さらに,共同設計および制御問題に対処するための最先端の深層強化学習アルゴリズムに対して,本アルゴリズムをベンチマークした。
DEPSは、少なくとも3つの環境では、より少ないイテレーションで高いリターンのソリューションを連続して生成する。
最後に,本アルゴリズムが生成する解を,環境パラメータとポリシーパラメータを共同で最適化しないアルゴリズムが生成する解と比較し,協調最適化を行う場合に高いリターンが得られることを強調する。
関連論文リスト
- A Simulation-Free Deep Learning Approach to Stochastic Optimal Control [12.699529713351287]
最適制御(SOC)における一般問題の解法のためのシミュレーションフリーアルゴリズムを提案する。
既存の手法とは異なり、我々の手法は随伴問題の解を必要としない。
論文 参考訳(メタデータ) (2024-10-07T16:16:53Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - A Robust Policy Bootstrapping Algorithm for Multi-objective
Reinforcement Learning in Non-stationary Environments [15.794728813746397]
多目的強化学習法は、多目的最適化手法で強化学習パラダイムを融合させる。
これらの方法の大きな欠点の1つは、環境における非定常力学への適応性の欠如である。
本研究では,非定常環境において,凸カバレッジの集合をオンライン的に頑健に進化させることのできる,新しい多目的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-18T02:15:12Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Policy Optimization for Stochastic Shortest Path [43.2288319750466]
最短経路(SSP)問題に対する政策最適化について検討する。
本研究では,有限ホライゾンモデルを厳密に一般化した目標指向強化学習モデルを提案する。
ほとんどの設定において、我々のアルゴリズムは、ほぼ最適の後悔境界に達することが示されている。
論文 参考訳(メタデータ) (2022-02-07T16:25:14Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。