Fugu-MT 論文翻訳(概要): Enforcing robust control guarantees within neural network policies

論文の概要: Enforcing robust control guarantees within neural network policies

arxiv url: http://arxiv.org/abs/2011.08105v2
Date: Thu, 28 Jan 2021 18:25:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-25 01:07:47.790412
Title: Enforcing robust control guarantees within neural network policies
Title（参考訳）: ニューラルネットワークポリシにおけるロバストな制御保証の実施
Authors: Priya L. Donti, Melrose Roderick, Mahyar Fazlyab, J. Zico Kolter
Abstract要約: 本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
参考スコア（独自算出の注目度）: 76.00287474159973
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When designing controllers for safety-critical systems, practitioners often face a challenging tradeoff between robustness and performance. While robust control methods provide rigorous guarantees on system stability under certain worst-case disturbances, they often yield simple controllers that perform poorly in the average (non-worst) case. In contrast, nonlinear control methods trained using deep learning have achieved state-of-the-art performance on many control tasks, but often lack robustness guarantees. In this paper, we propose a technique that combines the strengths of these two approaches: constructing a generic nonlinear control policy class, parameterized by neural networks, that nonetheless enforces the same provable robustness criteria as robust control. Specifically, our approach entails integrating custom convex-optimization-based projection layers into a neural network-based policy. We demonstrate the power of this approach on several domains, improving in average-case performance over existing robust control methods and in worst-case stability over (non-robust) deep RL methods.
Abstract（参考訳）: 安全クリティカルなシステムのためにコントローラを設計する場合、実践者は堅牢性とパフォーマンスの間の難しいトレードオフに直面します。ロバストな制御手法は、特定の最悪の場合の障害の下でシステムの安定性を厳格に保証するが、平均的な(非標準)ケースで性能の悪い単純なコントローラをしばしば得る。対照的に、ディープラーニングを使ってトレーニングされた非線形制御方法は、多くの制御タスクで最先端のパフォーマンスを達成しているが、しばしば堅牢性保証を欠いている。本稿では,これら2つの手法の強みを組み合わせる手法を提案する。ニューラルネットワークによってパラメータ化される汎用非線形制御ポリシクラスを構築することで,ロバスト制御と同じ証明可能なロバスト性基準を強制する。具体的には、カスタム凸最適化ベースのプロジェクション層をニューラルネットワークベースのポリシーに統合する。我々は,このアプローチのパワーを複数の領域で実証し,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)ディープrl法よりも最悪の場合安定性が向上した。

関連論文リスト

Robust Deterministic Policy Gradient for Disturbance Attenuation and Its Application to Quadrotor Control [5.084000938840218]
本稿ではロバスト決定性ポリシー勾配(RDPG)と呼ばれる強化学習アルゴリズムを提案する。 RDPGは2プレイヤーゼロサムダイナミックゲームとして$H_infty$制御問題を定式化している。次に、決定論的政策勾配(DPG)とその深い強化学習を用いて、効果的な外乱減衰を伴う堅牢な制御政策を訓練する。
論文参考訳（メタデータ） (2025-02-28T13:58:22Z)
Neural Port-Hamiltonian Models for Nonlinear Distributed Control: An Unconstrained Parametrization Approach [0.0]
ニューラルネットワーク(NN)は、優れたパフォーマンスをもたらす制御ポリシのパラメータ化に利用することができる。 NNの小さな入力変更に対する感度は、クローズドループシステムの不安定化のリスクを引き起こす。これらの問題に対処するために、ポート・ハミルトンシステムのフレームワークを活用して、連続時間分散制御ポリシーを設計する。提案する分散コントローラの有効性は,非ホロノミック移動ロボットのコンセンサス制御によって実証される。
論文参考訳（メタデータ） (2024-11-15T10:44:29Z)
Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文参考訳（メタデータ） (2024-05-01T21:11:29Z)
Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文参考訳（メタデータ） (2024-03-06T19:39:20Z)
In-Distribution Barrier Functions: Self-Supervised Policy Filters that Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文参考訳（メタデータ） (2023-01-27T22:28:19Z)
Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-02-14T20:06:28Z)
Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。最適制御には無関係な状態変数を特徴付ける。
論文参考訳（メタデータ） (2021-10-12T16:41:47Z)
Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文参考訳（メタデータ） (2021-05-17T08:36:18Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Reinforcement Learning Control of Constrained Dynamic Systems with Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。データベースの学習アプローチは、安定性を保証していないことで悪名高い。本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文参考訳（メタデータ） (2020-11-13T12:41:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。