Fugu-MT 論文翻訳(概要): Learning to Boost the Performance of Stable Nonlinear Systems

論文の概要: Learning to Boost the Performance of Stable Nonlinear Systems

arxiv url: http://arxiv.org/abs/2405.00871v2
Date: Fri, 27 Sep 2024 07:18:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 02:52:29.950098
Title: Learning to Boost the Performance of Stable Nonlinear Systems
Title（参考訳）: 安定非線形システムの性能向上のための学習
Authors: Luca Furieri, Clara Lucía Galimberti, Giancarlo Ferrari-Trecate,
Abstract要約: クローズドループ安定性保証による性能ブースティング問題に対処する。本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The growing scale and complexity of safety-critical control systems underscore the need to evolve current control architectures aiming for the unparalleled performances achievable through state-of-the-art optimization and machine learning algorithms. However, maintaining closed-loop stability while boosting the performance of nonlinear control systems using data-driven and deep-learning approaches stands as an important unsolved challenge. In this paper, we tackle the performance-boosting problem with closed-loop stability guarantees. Specifically, we establish a synergy between the Internal Model Control (IMC) principle for nonlinear systems and state-of-the-art unconstrained optimization approaches for learning stable dynamics. Our methods enable learning over arbitrarily deep neural network classes of performance-boosting controllers for stable nonlinear systems; crucially, we guarantee L_p closed-loop stability even if optimization is halted prematurely, and even when the ground-truth dynamics are unknown, with vanishing conservatism in the class of stabilizing policies as the model uncertainty is reduced to zero. We discuss the implementation details of the proposed control schemes, including distributed ones, along with the corresponding optimization procedures, demonstrating the potential of freely shaping the cost functions through several numerical experiments.
Abstract（参考訳）: 安全クリティカルな制御システムの規模と複雑さの増大は、最先端の最適化と機械学習アルゴリズムによって達成可能な、非並列なパフォーマンスを目指して、現在の制御アーキテクチャを進化させる必要性を浮き彫りにしている。しかし、データ駆動型およびディープラーニングアプローチを用いた非線形制御システムの性能を向上しつつ、閉ループ安定性を維持することは重要な未解決課題である。本稿では,閉ループ安定性保証による性能ブースティング問題に対処する。具体的には、非線形系の内部モデル制御(IMC)原理と、安定な力学を学習するための最先端の非制約最適化手法の相乗効果を確立する。本手法は, 安定非線形システムに対する性能ブースティング制御器の任意の深層ニューラルネットワーククラス上での学習を可能にし, 最適化が早期に停止してもL_p閉ループ安定性が保証され, 基礎構造が不明な場合でも, モデルの不確実性がゼロとなるにつれて, 安定化ポリシーのクラスにおける保守性は消滅する。複数の数値実験によりコスト関数を自由に形成する可能性を示すため、分散制御を含む制御方式の実装の詳細と、それに対応する最適化手順について論じる。

関連論文リスト

Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。 SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2026-02-01T12:56:10Z)
Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
Stochastic Reinforcement Learning with Stability Guarantees for Control of Unknown Nonlinear Systems [6.571209126567701]
本稿では,力学の局所線形表現を学習することでシステムを安定化する強化学習アルゴリズムを提案する。本稿では,いくつかの高次元力学系におけるアルゴリズムの有効性を示す。
論文参考訳（メタデータ） (2024-09-12T20:07:54Z)
Learning Over Contracting and Lipschitz Closed-Loops for Partially-Observed Nonlinear Systems (Extended Version) [1.2430809884830318]
本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。結果のYoula-RENパラメータ化は自動的に安定性(収縮)とユーザチューニング可能な堅牢性(Lipschitz)を満足することを示した。 We found that the Youla-REN are also like to existing learning-based and optimal control method, also ensure stability and exhibiting improve robustness to adversarial disturbances。
論文参考訳（メタデータ） (2023-04-12T23:55:56Z)
KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文参考訳（メタデータ） (2022-06-03T17:27:04Z)
Neural System Level Synthesis: Learning over All Stabilizing Policies for Nonlinear Systems [0.0]
本稿では,パラメータ最適化における閉ループ安定性を保証するニューラルSLS(Neur-SLS)手法を提案する。本稿では,Recurrent Equilibrium Networks (RENs) に基づく最近のDeep Neural Network (DNN) モデルを用いて,非線形安定演算子の豊富なクラスについて学習する。
論文参考訳（メタデータ） (2022-03-22T15:22:31Z)
Learning over All Stabilizing Nonlinear Controllers for a Partially-Observed Linear System [4.3012765978447565]
線形力学系に対する非線形出力フィードバックコントローラのパラメータ化を提案する。提案手法は, 制約を満たすことなく, 部分的に観測可能な線形力学系の閉ループ安定性を保証する。
論文参考訳（メタデータ） (2021-12-08T10:43:47Z)
Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文参考訳（メタデータ） (2021-05-17T08:36:18Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文参考訳（メタデータ） (2021-02-16T14:53:55Z)
Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文参考訳（メタデータ） (2020-11-16T17:14:59Z)
Reinforcement Learning Control of Constrained Dynamic Systems with Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。データベースの学習アプローチは、安定性を保証していないことで悪名高い。本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文参考訳（メタデータ） (2020-11-13T12:41:56Z)
Chance-Constrained Trajectory Optimization for Safe Exploration and Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-05-09T05:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。