論文の概要: Enforcing robust control guarantees within neural network policies
- arxiv url: http://arxiv.org/abs/2011.08105v2
- Date: Thu, 28 Jan 2021 18:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 01:07:47.790412
- Title: Enforcing robust control guarantees within neural network policies
- Title(参考訳): ニューラルネットワークポリシにおけるロバストな制御保証の実施
- Authors: Priya L. Donti, Melrose Roderick, Mahyar Fazlyab, J. Zico Kolter
- Abstract要約: 本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
- 参考スコア(独自算出の注目度): 76.00287474159973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When designing controllers for safety-critical systems, practitioners often
face a challenging tradeoff between robustness and performance. While robust
control methods provide rigorous guarantees on system stability under certain
worst-case disturbances, they often yield simple controllers that perform
poorly in the average (non-worst) case. In contrast, nonlinear control methods
trained using deep learning have achieved state-of-the-art performance on many
control tasks, but often lack robustness guarantees. In this paper, we propose
a technique that combines the strengths of these two approaches: constructing a
generic nonlinear control policy class, parameterized by neural networks, that
nonetheless enforces the same provable robustness criteria as robust control.
Specifically, our approach entails integrating custom convex-optimization-based
projection layers into a neural network-based policy. We demonstrate the power
of this approach on several domains, improving in average-case performance over
existing robust control methods and in worst-case stability over (non-robust)
deep RL methods.
- Abstract(参考訳): 安全クリティカルなシステムのためにコントローラを設計する場合、実践者は堅牢性とパフォーマンスの間の難しいトレードオフに直面します。
ロバストな制御手法は、特定の最悪の場合の障害の下でシステムの安定性を厳格に保証するが、平均的な(非標準)ケースで性能の悪い単純なコントローラをしばしば得る。
対照的に、ディープラーニングを使ってトレーニングされた非線形制御方法は、多くの制御タスクで最先端のパフォーマンスを達成しているが、しばしば堅牢性保証を欠いている。
本稿では,これら2つの手法の強みを組み合わせる手法を提案する。ニューラルネットワークによってパラメータ化される汎用非線形制御ポリシクラスを構築することで,ロバスト制御と同じ証明可能なロバスト性基準を強制する。
具体的には、カスタム凸最適化ベースのプロジェクション層をニューラルネットワークベースのポリシーに統合する。
我々は,このアプローチのパワーを複数の領域で実証し,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)ディープrl法よりも最悪の場合安定性が向上した。
関連論文リスト
- Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Sample-efficient Safe Learning for Online Nonlinear Control with Control
Barrier Functions [35.9713619595494]
強化学習と連続非線形制御は、複雑なシーケンシャルな意思決定タスクの複数の領域にうまく展開されている。
学習過程の探索特性とモデル不確実性の存在を考えると、それらを安全クリティカルな制御タスクに適用することは困難である。
本稿では,オンライン制御タスクを対象とした,効率のよいエピソード型安全な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T00:54:35Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。