論文の概要: Learning-based MPC from Big Data Using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.01667v1
- Date: Wed, 4 Jan 2023 15:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 16:19:45.363730
- Title: Learning-based MPC from Big Data Using Reinforcement Learning
- Title(参考訳): 強化学習を用いたビッグデータからの学習ベースmpc
- Authors: Shambhuraj Sawant, Akhil S Anand, Dirk Reinhardt, Sebastien Gros
- Abstract要約: 本稿では,Reinforcement Learning (RL) 手法を用いて,データから直接モデル予測制御(MPC)スキームを学習する手法を提案する。
我々は、RLのツールを用いて、オフラインでデータから直接パラメータ化されたMPCスキームを学習することで、この問題に対処することを提案する。
提案手法は, 収集したデータセットを解くことなく, MPC のスキームを導出し, 既存のビッグデータ手法の計算複雑性を解消する。
- 参考スコア(独自算出の注目度): 1.3124513975412255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an approach for learning Model Predictive Control (MPC)
schemes directly from data using Reinforcement Learning (RL) methods. The
state-of-the-art learning methods use RL to improve the performance of
parameterized MPC schemes. However, these learning algorithms are often
gradient-based methods that require frequent evaluations of computationally
expensive MPC schemes, thereby restricting their use on big datasets. We
propose to tackle this issue by using tools from RL to learn a parameterized
MPC scheme directly from data in an offline fashion. Our approach derives an
MPC scheme without having to solve it over the collected dataset, thereby
eliminating the computational complexity of existing techniques for big data.
We evaluate the proposed method on three simulated experiments of varying
complexity.
- Abstract(参考訳): 本稿では,Reinforcement Learning (RL) 手法を用いて,データから直接モデル予測制御(MPC)スキームを学習する手法を提案する。
最先端学習手法はRLを用いてパラメータ化されたMPCスキームの性能を向上させる。
しかし、これらの学習アルゴリズムはしばしば勾配に基づく手法であり、計算コストの高いmpcスキームの頻繁な評価を必要とする。
本稿では、RLのツールを用いて、オフラインでデータから直接パラメータ化されたMPCスキームを学習することを提案する。
提案手法は, 収集したデータセットを解くことなく, MPC のスキームを導出し, 既存のビッグデータ手法の計算複雑性を解消する。
本手法は, 様々な複雑さのシミュレーション実験を行った。
関連論文リスト
- PBES: PCA Based Exemplar Sampling Algorithm for Continual Learning [0.0]
本稿では、主成分分析(PCA)と中央値サンプリングに基づく新しい模範選択手法と、クラス増分学習の設定におけるニューラルネットワークトレーニング方式を提案する。
このアプローチは、データの異常値による落とし穴を回避し、さまざまなインクリメンタル機械学習モデルの実装と使用の両方が容易である。
論文 参考訳(メタデータ) (2023-12-14T21:27:38Z) - Reinforcement Learning in the Wild with Maximum Likelihood-based Model
Transfer [5.92353064090273]
マルコフ決定過程 (MDP) モデルを未知の, 類似のMDPで効率的に学習し, 計画する問題について検討する。
離散的かつ連続的な設定で MTRL 問題に対処する汎用二段階アルゴリズム MLEMTRL を提案する。
我々は,MLEMTRLがスクラッチから学習するよりも新しいMDPの学習を高速化し,ほぼ最適性能を実現することを実証的に実証した。
論文 参考訳(メタデータ) (2023-02-18T09:47:34Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。