Fugu-MT 論文翻訳(概要): Stability-Constrained Markov Decision Processes Using MPC

論文の概要: Stability-Constrained Markov Decision Processes Using MPC

arxiv url: http://arxiv.org/abs/2102.01383v1
Date: Tue, 2 Feb 2021 08:22:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-04 11:48:53.360867
Title: Stability-Constrained Markov Decision Processes Using MPC
Title（参考訳）: MPCを用いた安定制約マルコフ決定過程
Authors: Mario Zanon, S\'ebastien Gros, Michele Palladino
Abstract要約: 我々は、結果として得られる政策が安定化しているという制約の下で、割引されたマルコフ決定プロセス(MDP)を解決することを検討する。我々は,モデル予測制御(MPC)を強化学習の文脈における構造化ポリシーとして用いることを提案する最近の結果を活用する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In this paper, we consider solving discounted Markov Decision Processes (MDPs) under the constraint that the resulting policy is stabilizing. In practice MDPs are solved based on some form of policy approximation. We will leverage recent results proposing to use Model Predictive Control (MPC) as a structured policy in the context of Reinforcement Learning to make it possible to introduce stability requirements directly inside the MPC-based policy. This will restrict the solution of the MDP to stabilizing policies by construction. The stability theory for MPC is most mature for the undiscounted MPC case. Hence, we will first show in this paper that stable discounted MDPs can be reformulated as undiscounted ones. This observation will entail that the MPC-based policy with stability requirements will produce the optimal policy for the discounted MDP if it is stable, and the best stabilizing policy otherwise.
Abstract（参考訳）: 本稿では,結果として生じる政策が安定化しているという制約の下で,割引マルコフ決定プロセス(MDP)の解決を検討する。実際には、MPPは何らかの政策近似に基づいて解決される。我々は、モデル予測制御(MPC)を強化学習の文脈における構造化ポリシーとして活用することを提案する最近の結果を活用し、MPCベースのポリシー内での安定性要件を直接導入できるようにする。これは、建設による政策の安定化にMDPのソリューションを制限します。 MPCの安定性理論は、比類のないMPCの場合で最も成熟している。したがって、我々はまず、安定した割引MDPを無数に再フォーマットできることを本論文で示します。この観察は、安定要件のあるMPCベースの政策が、安定であれば、割引されたMDPの最適政策と、そうでなければ最良の安定化政策を生み出すことを要求する。

関連論文リスト

Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。 DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文参考訳（メタデータ） (2026-02-04T18:59:04Z)
A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文参考訳（メタデータ） (2026-01-30T08:47:19Z)
Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
Best-Effort Policies for Robust Markov Decision Processes [69.60742680559788]
我々は、ロバスト MDP (RMDPs) として知られる遷移確率の組によるマルコフ決定過程(MDPs)の共通一般化について研究する。このような政策を最適な堅牢なベストプラクティス(ORBE)政策と呼ぶ。我々はORBEポリシーが常に存在することを証明し、その構造を特徴付け、標準的なロバストな値反復よりも小さなオーバヘッドで計算するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-08-11T09:18:34Z)
Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
Sequential Monte Carlo for Policy Optimization in Continuous POMDPs [9.690099639375456]
連続的部分観測可能なマルコフ決定プロセス(POMDP)のための新しいポリシー最適化フレームワークを提案する。本手法は,非マルコフ的ファインマン-カックモデルにおいて,政策学習を確率論的推論とみなす。提案手法の有効性を,標準連続ポデムPベンチマークで実証する。
論文参考訳（メタデータ） (2025-05-22T14:45:46Z)
Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文参考訳（メタデータ） (2025-02-16T08:05:46Z)
Simulation-Based Optimistic Policy Iteration For Multi-Agent MDPs with Kullback-Leibler Control Cost [3.9052860539161918]
本稿では,マルコフ決定過程(MDP)における定常最適ポリシー学習のためのエージェントベース楽観的ポリシー(OPI)手法を提案する。提案手法は, 強欲政策改善段階とm段階時間差(TD)政策評価段階から構成される。我々は,OPIスキームの同期(入出力状態空間の評価)と非同期(一様にサンプリングされたサブステートの集合)の両バージョンが,最適値関数と最適共同ポリシーのロールアウトに収束することを示した。
論文参考訳（メタデータ） (2024-10-19T17:00:23Z)
Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文参考訳（メタデータ） (2023-02-28T11:58:39Z)
Robust Average-Reward Markov Decision Processes [25.125481838479256]
我々は,不確実なセットに対して最悪の平均報酬を最適化する政策を見出すことを目標とする,堅牢な平均リワードMDPに焦点を当てる。我々は, ディスカウント型MDPを用いて, 平均回帰MDPを近似するアプローチを採っている。我々は、ロバスト平均逆 MDP に対するロバストなベルマン方程式を導出し、最適ポリシーがその解から導出できることを証明し、さらに、その解を確実に見つけ出すロバストな相対値アルゴリズムを設計する。
論文参考訳（メタデータ） (2023-01-02T19:51:55Z)
Bounded Robustness in Reinforcement Learning via Lexicographic Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文参考訳（メタデータ） (2022-09-30T08:53:18Z)
Stability Verification of Neural Network Controllers using Mixed-Integer Programming [5.811502603310248]
本稿では,表現可能な制御ポリシの安定性検証のためのフレームワークを提案する。提案するフレームワークは、幅広い候補ポリシーに対応するのに十分な一般性を持っている。提案フレームワークをベースとしたオープンソースツールボックスをPythonで提案する。
論文参考訳（メタデータ） (2022-06-27T15:34:39Z)
Efficient Policy Iteration for Robust Markov Decision Processes via Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文参考訳（メタデータ） (2022-05-28T04:05:20Z)
Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文参考訳（メタデータ） (2021-07-09T04:24:40Z)
MPC-based Reinforcement Learning for Economic Problems with Application to Battery Storage [0.0]
モデル予測制御(MPC)に基づく政策近似に焦点を当てます。政策勾配法は,政策が(ほぼ)バンバン構造を持つ場合,政策パラメータに意味のあるステップを生じさせることに苦慮する。本稿では,内点法に基づくホモトピー戦略を提案し,学習中に方針を緩和する。
論文参考訳（メタデータ） (2021-04-06T10:37:14Z)
Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文参考訳（メタデータ） (2021-02-21T14:46:50Z)
Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization under Model Uncertainty [9.246374019271935]
我々は、制約マルコフ決定過程(CMDP)の理論とロバストマルコフ決定過程(RMDP)理論を融合することを提案する。この定式化により、性能が堅牢なRLアルゴリズムを設計でき、制約満足度を保証することができる。まず、RCMDPの概念に基づく一般問題定式化を提案し、次に最適問題のラグランジアン定式化を提案し、ロバスト制約付きポリシー勾配RLアルゴリズムを導出する。
論文参考訳（メタデータ） (2020-10-10T01:53:37Z)
Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文参考訳（メタデータ） (2020-03-09T13:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。