論文の概要: MAD: A Magnitude And Direction Policy Parametrization for Stability Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.02565v2
- Date: Sun, 05 Oct 2025 14:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:09.588513
- Title: MAD: A Magnitude And Direction Policy Parametrization for Stability Constrained Reinforcement Learning
- Title(参考訳): MAD:安定度制約強化学習のためのマグニチュードと方向性政策のパラメトリゼーション
- Authors: Luca Furieri, Sucheth Shenoy, Danilo Saccani, Andrea Martin, Giancarlo Ferrari-Trecate,
- Abstract要約: 我々は、強化学習(RL)のための政策パラメータ化であるマグニチュード・アンド・ディレクション(MAD)ポリシーを導入する。
MADポリシは、クローズドループ安定性を損なうことなく、状態依存機能に対する明示的なフィードバックを導入する。
モデルミスマッチ下でのMADポリシーの頑健な安定性特性を特徴付ける。
- 参考スコア(独自算出の注目度): 1.4680035572775534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce magnitude and direction (MAD) policies, a policy parameterization for reinforcement learning (RL) that preserves Lp closed-loop stability for nonlinear dynamical systems. Despite their completeness in describing all stabilizing controllers, methods based on nonlinear Youla and system-level synthesis are significantly impacted by the difficulty of parametrizing Lp-stable operators. In contrast, MAD policies introduce explicit feedback on state-dependent features - a key element behind the success of reinforcement learning pipelines - without jeopardizing closed-loop stability. This is achieved by letting the magnitude of the control input be described by a disturbance-feedback Lp-stable operator, while selecting its direction based on state-dependent features through a universal function approximator. We further characterize the robust stability properties of MAD policies under model mismatch. Unlike existing disturbance-feedback policy parametrizations, MAD policies introduce state-feedback components compatible with model-free RL pipelines, ensuring closed-loop stability with no model information beyond assuming open-loop stability. Numerical experiments show that MAD policies trained with deep deterministic policy gradient (DDPG) methods generalize to unseen scenarios - matching the performance of standard neural network policies while guaranteeing closed-loop stability by design.
- Abstract(参考訳): 非線形力学系に対するLp閉ループ安定性を保った強化学習(RL)のためのポリシーパラメータ化であるマグニチュード・アンド・ディレクション(MAD)ポリシーを導入する。
全ての安定化コントローラを記述する完全性にもかかわらず、非線形Youlaとシステムレベルの合成法はLp安定作用素のパラメトリゼーションの難しさに大きく影響している。
対照的に、MADポリシでは、クローズドループの安定性を損なうことなく、ステート依存機能(強化学習パイプラインの成功の鍵となる要素)に対する明確なフィードバックを導入している。
これは、制御入力の大きさを外乱フィードバックLp安定演算子によって記述させ、普遍関数近似器を通じて状態依存的特徴に基づいてその方向を選択することで達成される。
さらに、モデルミスマッチ下でのMADポリシーの頑健な安定性特性を特徴付ける。
既存の障害フィードバックポリシーのパラメトリゼーションとは異なり、MADポリシーは、モデルフリーのRLパイプラインと互換性のある状態フィードバックコンポーネントを導入し、オープンループの安定性を仮定する以上のモデル情報なしでクローズループの安定性を確保する。
数値実験により、Deep Deterministic Policy gradient (DDPG) 法で訓練されたMADポリシーは、設計によるクローズドループ安定性を確保しながら、標準的なニューラルネットワークポリシのパフォーマンスにマッチする、見当たらないシナリオに一般化されることが示されている。
関連論文リスト
- Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。
本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Learning Stabilizing Policies via an Unstable Subspace Representation [0.0]
本研究では,線形時間不変系(LTI)を安定化させる学習の課題について検討する。
本稿では,まずシステムの左不安定部分空間を学習する二相アプローチを提案する。
不安定な部分空間上での操作がサンプルの複雑さを減少させることを示す。
論文 参考訳(メタデータ) (2025-05-02T15:34:36Z) - Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Synthesizing Stable Reduced-Order Visuomotor Policies for Nonlinear
Systems via Sums-of-Squares Optimization [28.627377507894003]
本稿では,非線形システムの制御観測のためのノイズフィードバック,低次出力-制御-パーセプションポリシを提案する。
画像からのこれらのシステムが確実に安定できない場合、我々のアプローチは安定性の保証を提供する。
論文 参考訳(メタデータ) (2023-04-24T19:34:09Z) - Learning Over Contracting and Lipschitz Closed-Loops for
Partially-Observed Nonlinear Systems (Extended Version) [1.2430809884830318]
本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。
結果のYoula-RENパラメータ化は自動的に安定性(収縮)とユーザチューニング可能な堅牢性(Lipschitz)を満足することを示した。
We found that the Youla-REN are also like to existing learning-based and optimal control method, also ensure stability and exhibiting improve robustness to adversarial disturbances。
論文 参考訳(メタデータ) (2023-04-12T23:55:56Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Neural System Level Synthesis: Learning over All Stabilizing Policies
for Nonlinear Systems [0.0]
本稿では,パラメータ最適化における閉ループ安定性を保証するニューラルSLS(Neur-SLS)手法を提案する。
本稿では,Recurrent Equilibrium Networks (RENs) に基づく最近のDeep Neural Network (DNN) モデルを用いて,非線形安定演算子の豊富なクラスについて学習する。
論文 参考訳(メタデータ) (2022-03-22T15:22:31Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Youla-REN: Learning Nonlinear Feedback Policies with Robust Stability
Guarantees [5.71097144710995]
本稿では,最近開発されたニューラルネットワークアーキテクチャ上に構築された不確実性システムに対する非線形制御器のパラメータ化について述べる。
提案したフレームワークは、安定性の保証、すなわち、検索空間におけるすべてのポリシーが、契約(グローバルに指数関数的に安定した)クローズドループシステムをもたらすことを保証する。
論文 参考訳(メタデータ) (2021-12-02T13:52:37Z) - On the Sample Complexity and Metastability of Heavy-tailed Policy Search
in Continuous Control [47.71156648737803]
強化学習(Reinforcement learning)は、システムダイナミクスモデルなしで、時間をかけてインセンティブを順次明らかにする、インタラクティブな意思決定のためのフレームワークである。
定義された連鎖を特徴付け、テールインデックスのレヴィプロセスに関連するポリシーがより広いピークに収まることを識別する。
論文 参考訳(メタデータ) (2021-06-15T20:12:44Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。