論文の概要: Reinforcement Learning for Mixed-Integer Problems Based on MPC
- arxiv url: http://arxiv.org/abs/2004.01430v1
- Date: Fri, 3 Apr 2020 08:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 04:11:43.971874
- Title: Reinforcement Learning for Mixed-Integer Problems Based on MPC
- Title(参考訳): MPCに基づく混合整数問題に対する強化学習
- Authors: Sebastien Gros, Mario Zanon
- Abstract要約: 混合整数 MPC スキームに基づくポリシ近似を提案し、混合整数入力空間における探索を生成するための計算コストの低い手法を提案する。
そこで本稿では,MPC と混合したポリシの勾配を構築可能な,シンプルな整合性を持つアドバンテージ関数近似を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model Predictive Control has been recently proposed as policy approximation
for Reinforcement Learning, offering a path towards safe and explainable
Reinforcement Learning. This approach has been investigated for Q-learning and
actor-critic methods, both in the context of nominal Economic MPC and Robust
(N)MPC, showing very promising results. In that context, actor-critic methods
seem to be the most reliable approach. Many applications include a mixture of
continuous and integer inputs, for which the classical actor-critic methods
need to be adapted. In this paper, we present a policy approximation based on
mixed-integer MPC schemes, and propose a computationally inexpensive technique
to generate exploration in the mixed-integer input space that ensures a
satisfaction of the constraints. We then propose a simple compatible advantage
function approximation for the proposed policy, that allows one to build the
gradient of the mixed-integer MPC-based policy.
- Abstract(参考訳): モデル予測制御は、最近、強化学習のポリシー近似として提案され、安全で説明可能な強化学習への道を提供する。
このアプローチは、名目上の経済的なMPCとロバスト(N)MPCの文脈において、Q-ラーニングとアクター批判の手法で研究され、非常に有望な結果を示した。
その文脈では、アクター批判的手法が最も信頼できるアプローチである。
多くの応用には連続入力と整数入力の混合が含まれており、古典的なアクター批判法を適応させる必要がある。
本稿では,混合整数mpcスキームに基づくポリシ近似を提案し,制約の満足度を確保するために,混合整数入力空間の探索を計算的に安価な手法を提案する。
そこで,提案手法では,混合整数mpcに基づくポリシーの勾配を構築できる,簡易に適合するアドバンテージ関数近似を提案する。
関連論文リスト
- Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions [8.90692770076582]
最近提案された報酬条件付き政策(RCP)は、強化学習において魅力的な代替手段を提供する。
従来の手法と比較して,RCPは収束が遅く,収束時に期待される報酬が劣っていることを示す。
我々は、この手法を一般化された余分化と呼び、その利点は、低い報酬に条件付けられた政策に対する負の重み付けが、結果の政策をそれらとより区別することができることである。
論文 参考訳(メタデータ) (2024-06-16T03:43:55Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - A safe exploration approach to constrained Markov decision processes [7.036452261968767]
無限水平制限マルコフ決定過程(CMDP)について考察する。
目標は、期待される累積的制約の対象となる累積的報酬を最大化する最適なポリシーを見つけることである。
安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、モデルフリーでシミュレータフリーなアルゴリズムの開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-01T13:16:39Z) - Adaptive Policy Learning to Additional Tasks [3.43814540650436]
本稿では,事前訓練されたポリシーを調整し,本来のタスクを変更することなく追加タスクに適応するためのポリシー学習手法を開発する。
本稿では,適応政策グラディエント (APG) という手法を提案する。これはベルマンの最適性の原理と,収束率を改善するための政策勾配アプローチを組み合わせたものである。
論文 参考訳(メタデータ) (2023-05-24T14:31:11Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - Risk Consistent Multi-Class Learning from Label Proportions [64.0125322353281]
本研究は,バッグにトレーニングインスタンスを提供するMCLLP設定によるマルチクラス学習に対処する。
既存のほとんどのMCLLPメソッドは、インスタンスの予測や擬似ラベルの割り当てにバッグワイズな制約を課している。
経験的リスク最小化フレームワークを用いたリスク一貫性手法を提案する。
論文 参考訳(メタデータ) (2022-03-24T03:49:04Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - MPC-based Reinforcement Learning for Economic Problems with Application
to Battery Storage [0.0]
モデル予測制御(MPC)に基づく政策近似に焦点を当てます。
政策勾配法は,政策が(ほぼ)バンバン構造を持つ場合,政策パラメータに意味のあるステップを生じさせることに苦慮する。
本稿では,内点法に基づくホモトピー戦略を提案し,学習中に方針を緩和する。
論文 参考訳(メタデータ) (2021-04-06T10:37:14Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。