論文の概要: Learning-based MPC from Big Data Using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.01667v1
- Date: Wed, 4 Jan 2023 15:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 16:19:45.363730
- Title: Learning-based MPC from Big Data Using Reinforcement Learning
- Title(参考訳): 強化学習を用いたビッグデータからの学習ベースmpc
- Authors: Shambhuraj Sawant, Akhil S Anand, Dirk Reinhardt, Sebastien Gros
- Abstract要約: 本稿では,Reinforcement Learning (RL) 手法を用いて,データから直接モデル予測制御(MPC)スキームを学習する手法を提案する。
我々は、RLのツールを用いて、オフラインでデータから直接パラメータ化されたMPCスキームを学習することで、この問題に対処することを提案する。
提案手法は, 収集したデータセットを解くことなく, MPC のスキームを導出し, 既存のビッグデータ手法の計算複雑性を解消する。
- 参考スコア(独自算出の注目度): 1.3124513975412255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an approach for learning Model Predictive Control (MPC)
schemes directly from data using Reinforcement Learning (RL) methods. The
state-of-the-art learning methods use RL to improve the performance of
parameterized MPC schemes. However, these learning algorithms are often
gradient-based methods that require frequent evaluations of computationally
expensive MPC schemes, thereby restricting their use on big datasets. We
propose to tackle this issue by using tools from RL to learn a parameterized
MPC scheme directly from data in an offline fashion. Our approach derives an
MPC scheme without having to solve it over the collected dataset, thereby
eliminating the computational complexity of existing techniques for big data.
We evaluate the proposed method on three simulated experiments of varying
complexity.
- Abstract(参考訳): 本稿では,Reinforcement Learning (RL) 手法を用いて,データから直接モデル予測制御(MPC)スキームを学習する手法を提案する。
最先端学習手法はRLを用いてパラメータ化されたMPCスキームの性能を向上させる。
しかし、これらの学習アルゴリズムはしばしば勾配に基づく手法であり、計算コストの高いmpcスキームの頻繁な評価を必要とする。
本稿では、RLのツールを用いて、オフラインでデータから直接パラメータ化されたMPCスキームを学習することを提案する。
提案手法は, 収集したデータセットを解くことなく, MPC のスキームを導出し, 既存のビッグデータ手法の計算複雑性を解消する。
本手法は, 様々な複雑さのシミュレーション実験を行った。
関連論文リスト
- Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method [0.0]
本稿では,HAAMRL(Huristic ensemble-based Action Masking Reinforcement Learning)と呼ばれる新しい強化学習手法を提案する。
提案手法は, 複雑な製造プロセスの最適化において, 優れた性能と性能の一般化を示す。
論文 参考訳(メタデータ) (2024-03-21T03:42:39Z) - Decomposing Control Lyapunov Functions for Efficient Reinforcement Learning [10.117626902557927]
現在の強化学習(RL)手法では、特定のタスクを学習するために大量のデータを必要とするため、エージェントをデプロイして実世界のアプリケーションにデータを収集する場合、不合理なコストが発生する。
本稿では,RL の報酬関数を補うために,CLF (Control Lyapunov Function) を導入して,サンプルの複雑さを低減した既存の作業から構築する。
提案手法は,最先端のソフト・アクター・クリティカル・アルゴリズムが必要とする実世界のデータの半分以下でクワッドコプターを着陸させることが可能であることを示す。
論文 参考訳(メタデータ) (2024-03-18T19:51:17Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。