論文の概要: A Safe Reinforcement Learning driven Weights-varying Model Predictive
Control for Autonomous Vehicle Motion Control
- arxiv url: http://arxiv.org/abs/2402.02624v1
- Date: Sun, 4 Feb 2024 22:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:51:54.619610
- Title: A Safe Reinforcement Learning driven Weights-varying Model Predictive
Control for Autonomous Vehicle Motion Control
- Title(参考訳): 安全強化学習による自律走行制御のための重量変動モデル予測制御
- Authors: Baha Zarrouki, Marios Spanakakis and Johannes Betz
- Abstract要約: モデル予測制御(MPC)の最適コスト関数パラメータを決定するための新しい手法を提案する。
連続した空間で学習するのではなく、今後の制御タスクを積極的に予測するRLエージェントを考案する。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining the optimal cost function parameters of Model Predictive Control
(MPC) to optimize multiple control objectives is a challenging and
time-consuming task. Multiobjective Bayesian Optimization (BO) techniques solve
this problem by determining a Pareto optimal parameter set for an MPC with
static weights. However, a single parameter set may not deliver the most
optimal closed-loop control performance when the context of the MPC operating
conditions changes during its operation, urging the need to adapt the cost
function weights at runtime. Deep Reinforcement Learning (RL) algorithms can
automatically learn context-dependent optimal parameter sets and dynamically
adapt for a Weightsvarying MPC (WMPC). However, learning cost function weights
from scratch in a continuous action space may lead to unsafe operating states.
To solve this, we propose a novel approach limiting the RL actions within a
safe learning space representing a catalog of pre-optimized BO Pareto-optimal
weight sets. We conceive a RL agent not to learn in a continuous space but to
proactively anticipate upcoming control tasks and to choose the most optimal
discrete actions, each corresponding to a single set of Pareto optimal weights,
context-dependent. Hence, even an untrained RL agent guarantees a safe and
optimal performance. Experimental results demonstrate that an untrained RL-WMPC
shows Pareto-optimal closed-loop behavior and training the RL-WMPC helps
exhibit a performance beyond the Pareto-front.
- Abstract(参考訳): 複数の制御目標を最適化するためにモデル予測制御(MPC)の最適コスト関数パラメータを決定することは困難かつ時間を要する作業である。
多目的ベイズ最適化(BO)技術は、静的重み付きMPCに対するパレート最適パラメータセットを決定することでこの問題を解決する。
しかし、単一のパラメータセットは、MPC動作条件のコンテキストが動作中に変化するとき、最も最適なクローズドループ制御性能を提供できないため、実行時にコスト関数の重みに適応する必要がある。
Deep Reinforcement Learning (RL)アルゴリズムは、コンテキスト依存の最適パラメータ集合を自動的に学習し、重み変化MPC(WMPC)に動的に適応することができる。
しかし、連続的な作用空間におけるスクラッチからの学習コスト関数の重み付けは、安全でない動作状態を引き起こす可能性がある。
そこで本研究では,事前最適化BOパレート最適重み集合のカタログを表す安全な学習空間内でのRL動作を制限する新しい手法を提案する。
連続空間において学習しないRLエージェントが、今後の制御タスクを積極的に予測し、最も最適な離散的なアクションを選択し、それぞれがパレートの最適重みの集合である文脈依存の集合に対応する。
したがって、訓練されていないRLエージェントでさえ、安全かつ最適な性能を保証する。
実験の結果,未訓練のRL-WMPCはパレート最適閉ループ挙動を示し,RL-WMPCのトレーニングはパレートフロントを超える性能を示すことが示された。
関連論文リスト
- Stability-informed Bayesian Optimization for MPC Cost Function Learning [5.643541009427271]
本研究では,不完全な情報の下での予測制御パラメータの閉ループ学習について検討する。
フィードフォワードニューラルネットワークとしてパラメータ化されたモデル予測制御器(MPC)コスト関数の学習には,制約付きベイズ最適化を用いる。
Lyapunov 候補として基礎となる MPC の最適値関数を利用して,学習した制御パラメータの安定性制約によってこの枠組みを拡張した。
論文 参考訳(メタデータ) (2024-04-18T13:49:09Z) - Towards an Adaptable and Generalizable Optimization Engine in Decision
and Control: A Meta Reinforcement Learning Approach [6.302621910090619]
メタ強化学習(RL)に基づいてMPCコントローラを学習し、コントローラを更新する。
これは専門家によるデモンストレーションを必要とせず、目に見えないコントロールタスクにデプロイされた場合の迅速な適応を可能にする。
論文 参考訳(メタデータ) (2024-01-04T19:41:33Z) - Deep Model Predictive Optimization [21.22047409735362]
ロボット工学における大きな課題は、現実世界で複雑でアジャイルな振る舞いを可能にする堅牢なポリシーを設計することである。
本稿では,MPC最適化アルゴリズムの内ループを体験を通して直接学習するDeep Model Predictive Optimization (DMPO)を提案する。
DMPOは、MFRLでトレーニングされたエンドツーエンドポリシーを19%削減することで、最高のMPCアルゴリズムを最大27%向上させることができる。
論文 参考訳(メタデータ) (2023-10-06T21:11:52Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Optimization of the Model Predictive Control Meta-Parameters Through
Reinforcement Learning [1.4069478981641936]
強化学習(RL)を用いて制御アルゴリズムの任意のパラメータを協調的に調整できる新しいフレームワークを提案する。
我々は,倒立振子制御タスクの枠組みを実証し,制御システムの総時間を36%削減するとともに,最高性能のMPCベースラインよりも18.4%向上した。
論文 参考訳(メタデータ) (2021-11-07T18:33:22Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。