Fugu-MT 論文翻訳(概要): Youla-REN: Learning Nonlinear Feedback Policies with Robust Stability Guarantees

論文の概要: Youla-REN: Learning Nonlinear Feedback Policies with Robust Stability Guarantees

arxiv url: http://arxiv.org/abs/2112.01253v1
Date: Thu, 2 Dec 2021 13:52:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-03 22:30:33.816395
Title: Youla-REN: Learning Nonlinear Feedback Policies with Robust Stability Guarantees
Title（参考訳）: Youla-REN:ロバスト安定性保証による非線形フィードバックポリシの学習
Authors: Ruigang Wang and Ian R. Manchester
Abstract要約: 本稿では,最近開発されたニューラルネットワークアーキテクチャ上に構築された不確実性システムに対する非線形制御器のパラメータ化について述べる。提案したフレームワークは、安定性の保証、すなわち、検索空間におけるすべてのポリシーが、契約(グローバルに指数関数的に安定した)クローズドループシステムをもたらすことを保証する。
参考スコア（独自算出の注目度）: 5.71097144710995
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a parameterization of nonlinear controllers for uncertain systems building on a recently developed neural network architecture, called the recurrent equilibrium network (REN), and a nonlinear version of the Youla parameterization. The proposed framework has "built-in" guarantees of stability, i.e., all policies in the search space result in a contracting (globally exponentially stable) closed-loop system. Thus, it requires very mild assumptions on the choice of cost function and the stability property can be generalized to unseen data. Another useful feature of this approach is that policies are parameterized directly without any constraints, which simplifies learning by a broad range of policy-learning methods based on unconstrained optimization (e.g. stochastic gradient descent). We illustrate the proposed approach with a variety of simulation examples.
Abstract（参考訳）: 本稿では,最近のニューラルネットワークアーキテクチャであるrecurrent equilibrium network (ren) と,youlaパラメータ化の非線形バージョンに基づく不確定システムの非線形制御のパラメータ化について述べる。提案したフレームワークは、安定性の保証、すなわち、検索空間のすべてのポリシーが契約(グローバルに指数関数的に安定した)閉ループシステムをもたらすことを保証する。したがって、コスト関数の選択に関する非常に穏やかな仮定が必要であり、安定性特性は見当たらないデータに一般化することができる。このアプローチのもう1つの有用な特徴は、ポリシーは制約なしで直接パラメータ化され、制約のない最適化(確率勾配降下など)に基づいて、幅広いポリシー学習手法で学習を単純化することである。提案手法を様々なシミュレーション例で説明する。

関連論文リスト

Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。 SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2026-02-01T12:56:10Z)
Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文参考訳（メタデータ） (2024-05-01T21:11:29Z)
Learning Over Contracting and Lipschitz Closed-Loops for Partially-Observed Nonlinear Systems (Extended Version) [1.2430809884830318]
本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。結果のYoula-RENパラメータ化は自動的に安定性(収縮)とユーザチューニング可能な堅牢性(Lipschitz)を満足することを示した。 We found that the Youla-REN are also like to existing learning-based and optimal control method, also ensure stability and exhibiting improve robustness to adversarial disturbances。
論文参考訳（メタデータ） (2023-04-12T23:55:56Z)
KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文参考訳（メタデータ） (2022-06-03T17:27:04Z)
Neural System Level Synthesis: Learning over All Stabilizing Policies for Nonlinear Systems [0.0]
本稿では,パラメータ最適化における閉ループ安定性を保証するニューラルSLS(Neur-SLS)手法を提案する。本稿では,Recurrent Equilibrium Networks (RENs) に基づく最近のDeep Neural Network (DNN) モデルを用いて,非線形安定演算子の豊富なクラスについて学習する。
論文参考訳（メタデータ） (2022-03-22T15:22:31Z)
Pessimistic Q-Learning for Offline Reinforcement Learning: Towards Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-28T15:39:36Z)
Learning over All Stabilizing Nonlinear Controllers for a Partially-Observed Linear System [4.3012765978447565]
線形力学系に対する非線形出力フィードバックコントローラのパラメータ化を提案する。提案手法は, 制約を満たすことなく, 部分的に観測可能な線形力学系の閉ループ安定性を保証する。
論文参考訳（メタデータ） (2021-12-08T10:43:47Z)
Recurrent Equilibrium Networks: Flexible Dynamic Models with Guaranteed Stability and Robustness [3.2872586139884623]
本稿では,機械学習,システム識別,制御における再帰平衡ネットワーク(REN)を提案する。 RENはRNの二次ベクトルによって直接パラメータ化され、安定性とロバスト性はパラメータ制約なしで確保される。また,データ駆動型非線形オブザーバの設計と安定性保証による制御への応用について述べる。
論文参考訳（メタデータ） (2021-04-13T05:09:41Z)
Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文参考訳（メタデータ） (2021-03-22T03:16:33Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文参考訳（メタデータ） (2021-02-16T14:53:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。