論文の概要: A Systematic Review and Taxonomy of Reinforcement Learning-Model Predictive Control Integration for Linear Systems
- arxiv url: http://arxiv.org/abs/2604.21030v1
- Date: Wed, 22 Apr 2026 19:22:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.150467
- Title: A Systematic Review and Taxonomy of Reinforcement Learning-Model Predictive Control Integration for Linear Systems
- Title(参考訳): 強化学習の体系的レビューと分類-線形システムの予測制御統合
- Authors: Mohsen Jalaeian Farimani, Roya Khalili Amirabadi, Davoud Nikkhouy, Malihe Abdolbaghi, Mahshad Rastegarmoghaddam, Shima Samadzadeh,
- Abstract要約: The integration of Model Predictive Control (MPC) and Reinforcement Learning (RL) has appeared as a promising paradigm for constrained decision-making and adapt control。
MPCは構造化最適化、明示的な制約処理、確立された安定性ツールを提供するが、RLはデータ駆動型適応と性能改善を提供する。
RL-MPC統合の研究の急速な発展にもかかわらず、文献は断片化されている。
- 参考スコア(独自算出の注目度): 0.9236074230806578
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The integration of Model Predictive Control (MPC) and Reinforcement Learning (RL) has emerged as a promising paradigm for constrained decision-making and adaptive control. MPC offers structured optimization, explicit constraint handling, and established stability tools, whereas RL provides data-driven adaptation and performance improvement in the presence of uncertainty and model mismatch. Despite the rapid growth of research on RL--MPC integration, the literature remains fragmented, particularly for control architectures built on linear or linearized predictive models. This paper presents a comprehensive Systematic Literature Review (SLR) of RL--MPC integrations for linear and linearized systems, covering peer-reviewed and formally indexed studies published until 2025. The reviewed studies are organized through a multi-dimensional taxonomy covering RL functional roles, RL algorithm classes, MPC formulations, cost-function structures, and application domains. In addition, a cross-dimensional synthesis is conducted to identify recurring design patterns and reported associations among these dimensions within the reviewed corpus. The review highlights methodological trends, commonly adopted integration strategies, and recurring practical challenges, including computational burden, sample efficiency, robustness, and closed-loop guarantees. The resulting synthesis provides a structured reference for researchers and practitioners seeking to design or analyze RL--MPC architectures based on linear or linearized predictive control formulations.
- Abstract(参考訳): The integration of Model Predictive Control (MPC) and Reinforcement Learning (RL) has appeared as a promising paradigm for constrained decision-making and adapt control。
MPCは構造化最適化、明示的な制約処理、確立された安定性ツールを提供するが、RLは不確実性とモデルミスマッチの存在下でデータ駆動型適応と性能改善を提供する。
RL-MPC統合の研究の急速な発展にもかかわらず、特に線形または線形化予測モデル上に構築された制御アーキテクチャに関する文献は断片化され続けている。この記事では、線形および線形化されたシステムに対するRL-MPC統合の総合的な体系的文献レビュー(SLR)を2025年まで発行されたピアレビューおよび公式インデックス化研究について紹介する。
レビューされた研究は、RLの機能的役割、RLアルゴリズムクラス、MPCの定式化、コスト関数構造、アプリケーションドメインをカバーする多次元分類によって構成される。
さらに, 再検討したコーパス内において, 繰り返し発生するデザインパターンと, これらの次元間の関連性を明らかにするために, クロス次元合成を行った。
このレビューでは、方法論的傾向、一般的に採用されている統合戦略、そして計算負担、サンプル効率、堅牢性、クローズドループ保証などの実践的な課題を取り上げている。
結果として得られる合成は、線形または線形化された予測制御の定式化に基づいてRL--MPCアーキテクチャを設計または分析しようとする研究者や実践者に対して構造化された参照を提供する。
関連論文リスト
- Multi-Objective Reward and Preference Optimization: Theory and Algorithms [3.316593788543852]
この論文は、制御、嗜好学習、大規模言語モデルのアライメントを越えて制約付き強化学習(RL)を進める理論的枠組みとアルゴリズムを開発する。
ACPO, e-COP, warmPref-PS, PSPL, MOPOは, 平均コスト, エピソード, 嗜好駆動のパラダイムでRLを推し進める。
集合的に、論文はRLを平均的コスト、エピソード、および嗜好駆動のパラダイムで統一し、理論的な進歩と、安全で整合した意思決定のための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-12-11T12:51:21Z) - Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning [53.85659415230589]
本稿では,広く採用されている強化学習手法を体系的にレビューする。
特定の設定に合わせてRLテクニックを選択するための明確なガイドラインを示す。
また、2つのテクニックを最小限に組み合わせることで、批判のないポリシーの学習能力を解き放つことも明らかにした。
論文 参考訳(メタデータ) (2025-08-11T17:39:45Z) - A Technical Survey of Reinforcement Learning Techniques for Large Language Models [33.38582292895673]
大規模言語モデル(LLM)の整合・拡張のための変換的アプローチとして強化学習(RL)が登場している。
RLHFはアライメントにおいて支配的であり、RLVRのような結果ベースのRLは段階的推論を著しく改善する。
報酬のハッキング、計算コスト、スケーラブルなフィードバック収集といった永続的な課題は、継続的なイノベーションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-05T19:13:00Z) - TemplateRL: Structured Template-Guided Reinforcement Learning for LLM Reasoning [56.250782426571526]
強化学習(Reinforcement Learning, RL)は, モデル推論の強化に有効なパラダイムとして登場した。
本稿では、明示的なテンプレートガイダンスによってポリシー最適化を向上する構造化テンプレート誘導型RLフレームワークを提案する。
提案手法はまず, MCTS を用いて小さなシードセット上に問題解決テンプレートライブラリを構築し, この高レベルの構造化ガイダンスを RL トレーニングにシームレスに統合する。
論文 参考訳(メタデータ) (2025-05-21T16:06:10Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Reinforcement Learning of Structured Control for Linear Systems with
Unknown State Matrix [0.0]
十分な安定性と性能保証と合わせて強化学習(RL)のアイデアを提示する。
このフレームワークによって実現される特別な制御構造は、多くの大規模サイバー物理システムで必要とされる分散学習制御である。
論文 参考訳(メタデータ) (2020-11-02T17:04:34Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。