論文の概要: A reinforcement learning approach to hybrid control design
- arxiv url: http://arxiv.org/abs/2009.00821v1
- Date: Wed, 2 Sep 2020 05:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 19:54:44.297233
- Title: A reinforcement learning approach to hybrid control design
- Title(参考訳): ハイブリッド制御設計における強化学習手法
- Authors: Meet Gandhi, Atreyee Kundu, Shalabh Bhatnagar
- Abstract要約: 1つのマルコフ決定プロセス(MDP)としてハイブリッド制御設計問題をモデル化するためのフレームワークを提案する。
第2に、提案したMDPフレームワークにおけるハイブリッド制御設計問題のベンチマーク例をモデル化する。
第三に、最近提案されたハイブリッドアクション空間に対する近似ポリシー最適化アルゴリズムを適用し、上記の問題集合に適用する。
- 参考スコア(独自算出の注目度): 3.1092085121563526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we design hybrid control policies for hybrid systems whose
mathematical models are unknown. Our contributions are threefold. First, we
propose a framework for modelling the hybrid control design problem as a single
Markov Decision Process (MDP). This result facilitates the application of
off-the-shelf algorithms from Reinforcement Learning (RL) literature towards
designing optimal control policies. Second, we model a set of benchmark
examples of hybrid control design problem in the proposed MDP framework. Third,
we adapt the recently proposed Proximal Policy Optimisation (PPO) algorithm for
the hybrid action space and apply it to the above set of problems. It is
observed that in each case the algorithm converges and finds the optimal
policy.
- Abstract(参考訳): 本稿では,数学的モデルが不明なハイブリッドシステムのハイブリッド制御ポリシーを設計する。
私たちの貢献は3倍です。
まず,ハイブリッド制御設計問題を1つのマルコフ決定プロセス(MDP)としてモデル化するフレームワークを提案する。
この結果から,Reinforcement Learning (RL) 文献からの既製のアルゴリズムの最適制御ポリシー設計への活用が容易となった。
第2に,提案するmdpフレームワークにおけるハイブリッド制御設計問題のベンチマーク事例をモデル化する。
第三に、最近提案されたPPOアルゴリズムをハイブリッドアクション空間に適用し、上記の問題に適用する。
それぞれのケースでアルゴリズムが収束し、最適方針を見つけることが観察される。
関連論文リスト
- PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Robust optimal well control using an adaptive multi-grid reinforcement
learning framework [0.0]
強化学習は、堅牢な最適ウェルコントロール問題を解決するための有望なツールである。
提案するフレームワークは、最先端のモデルフリーポリシーベースのRLアルゴリズムを用いて実証される。
計算効率の顕著な向上は,提案したフレームワークを用いて,1つのファイングリッドの計算コストの約60~70%を削減した。
論文 参考訳(メタデータ) (2022-07-07T12:08:57Z) - Distributed Evolution Strategies for Black-box Stochastic Optimization [42.90600124972943]
この研究は、分散ブラックボックス最適化への進化的アプローチに関するものである。
各作業者は、アルゴリズムによる問題の近似を個別に解くことができる。
問題のロバスト性を大幅に改善する2つの代替シミュレーション手法を提案する。
論文 参考訳(メタデータ) (2022-04-09T11:18:41Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z) - Solving stochastic optimal control problem via stochastic maximum
principle with deep learning method [0.2064612766965483]
新しい制御問題を解くために3つのアルゴリズムが提案されている。
この手法の重要な応用は、完全非線形PDEの一種に対応するサブ線形期待値を計算することである。
論文 参考訳(メタデータ) (2020-07-05T02:28:43Z) - Jointly Learning Environments and Control Policies with Projected
Stochastic Gradient Ascent [3.118384520557952]
この問題を解決するために,政策勾配法とモデルに基づく最適化手法を組み合わせた深層強化学習アルゴリズムを提案する。
本質的に,本アルゴリズムはモンテカルロサンプリングと自動微分によって予測されるリターンの勾配を反復的に近似する。
DEPSは、少なくとも3つの環境では、より少ないイテレーションで高いリターンのソリューションを一貫して得ることができる、ということが示されます。
論文 参考訳(メタデータ) (2020-06-02T16:08:07Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。