論文の概要: Towards an Adaptable and Generalizable Optimization Engine in Decision
and Control: A Meta Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2401.02508v1
- Date: Thu, 4 Jan 2024 19:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 16:52:45.988928
- Title: Towards an Adaptable and Generalizable Optimization Engine in Decision
and Control: A Meta Reinforcement Learning Approach
- Title(参考訳): 決定と制御における適応的で一般化可能な最適化エンジンを目指して:メタ強化学習アプローチ
- Authors: Sungwook Yang, Chaoying Pei, Ran Dai, Chuangchuang Sun
- Abstract要約: メタ強化学習(RL)に基づいてMPCコントローラを学習し、コントローラを更新する。
これは専門家によるデモンストレーションを必要とせず、目に見えないコントロールタスクにデプロイされた場合の迅速な適応を可能にする。
- 参考スコア(独自算出の注目度): 6.302621910090619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sampling-based model predictive control (MPC) has found significant success
in optimal control problems with non-smooth system dynamics and cost function.
Many machine learning-based works proposed to improve MPC by a) learning or
fine-tuning the dynamics/ cost function, or b) learning to optimize for the
update of the MPC controllers. For the latter, imitation learning-based
optimizers are trained to update the MPC controller by mimicking the expert
demonstrations, which, however, are expensive or even unavailable. More
significantly, many sequential decision-making problems are in non-stationary
environments, requiring that an optimizer should be adaptable and generalizable
to update the MPC controller for solving different tasks. To address those
issues, we propose to learn an optimizer based on meta-reinforcement learning
(RL) to update the controllers. This optimizer does not need expert
demonstration and can enable fast adaptation (e.g., few-shots) when it is
deployed in unseen control tasks. Experimental results validate the
effectiveness of the learned optimizer regarding fast adaptation.
- Abstract(参考訳): サンプリングベースモデル予測制御(MPC)は、非滑らかなシステム力学とコスト関数による最適制御問題において大きな成功を収めている。
MPC改善のための機械学習に基づく多くの研究
a) ダイナミックス/コスト関数の学習または微調整
b) mpcコントローラの更新を最適化するための学習。
後者の場合、模倣学習ベースのオプティマイザは、専門家のデモンストレーションを模倣してmpcコントローラを更新するように訓練される。
さらに、多くのシーケンシャルな意思決定問題は非定常環境にあり、異なるタスクを解決するためにMPCコントローラを更新するために最適化器を適応し、一般化する必要がある。
これらの問題に対処するために,メタ強化学習(RL)に基づく最適化器の学習を提案し,コントローラの更新を行う。
このオプティマイザは専門家によるデモンストレーションを必要とせず、未確認の制御タスクにデプロイされた場合の高速適応(例:数ショット)を可能にする。
高速適応に関する学習最適化の有効性を実験的に検証した。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - A Safe Reinforcement Learning driven Weights-varying Model Predictive
Control for Autonomous Vehicle Motion Control [2.07180164747172]
モデル予測制御(MPC)の最適コスト関数パラメータを決定するための新しい手法を提案する。
連続した空間で学習するのではなく、今後の制御タスクを積極的に予測するRLエージェントを考案する。
論文 参考訳(メタデータ) (2024-02-04T22:09:28Z) - Learning to Optimize in Model Predictive Control [36.82905770866734]
サンプリングベースのモデル予測制御(MPC)は、非滑らかなダイナミクスとコスト関数を推論できる柔軟な制御フレームワークである。
これはサンプリングベースのMPCにおいて特に有用であり,サンプルの数を最小化したいと願う場合が多い。
制御分布をより効果的に更新する方法を学習することで,このノイズと競合できることを示す。
論文 参考訳(メタデータ) (2022-12-05T21:20:10Z) - Offline Supervised Learning V.S. Online Direct Policy Optimization: A Comparative Study and A Unified Training Paradigm for Neural Network-Based Optimal Feedback Control [7.242569453287703]
まず、オフライン教師付き学習とオンライン直接ポリシー最適化の2つの一般的なアプローチの比較研究を行う。
本結果は,最適性と学習時間の両方の観点から,オフライン教師あり学習の優位性を裏付けるものである。
最適フィードバック制御のための統一訓練パラダイムとして,プレトレインとファインチューン戦略を提案する。
論文 参考訳(メタデータ) (2022-11-29T05:07:13Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Optimization of the Model Predictive Control Meta-Parameters Through
Reinforcement Learning [1.4069478981641936]
強化学習(RL)を用いて制御アルゴリズムの任意のパラメータを協調的に調整できる新しいフレームワークを提案する。
我々は,倒立振子制御タスクの枠組みを実証し,制御システムの総時間を36%削減するとともに,最高性能のMPCベースラインよりも18.4%向上した。
論文 参考訳(メタデータ) (2021-11-07T18:33:22Z) - Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。
高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文 参考訳(メタデータ) (2020-10-31T08:05:34Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。