論文の概要: Stability-Certified Reinforcement Learning via Spectral Normalization
- arxiv url: http://arxiv.org/abs/2012.13744v1
- Date: Sat, 26 Dec 2020 14:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 01:11:49.482402
- Title: Stability-Certified Reinforcement Learning via Spectral Normalization
- Title(参考訳): スペクトル正規化による安定性確認強化学習
- Authors: Ryoichi Takase, Nobuyuki Yoshikawa, Toshisada Mariyama, and Takeshi
Tsuchiya
- Abstract要約: ニューラルネットワークによって制御されるシステムの安定性を確保するため、異なる視点から2つの手法について述べる。
本論文で提案するスペクトル正規化は,より厳密な局所セクタを構築することにより,a-posteriori安定性テストの実現性を向上させる。
- 参考スコア(独自算出の注目度): 1.2179548969182574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this article, two types of methods from different perspectives based on
spectral normalization are described for ensuring the stability of the system
controlled by a neural network. The first one is that the L2 gain of the
feedback system is bounded less than 1 to satisfy the stability condition
derived from the small-gain theorem. While explicitly including the stability
condition, the first method may provide an insufficient performance on the
neural network controller due to its strict stability condition. To overcome
this difficulty, the second one is proposed, which improves the performance
while ensuring the local stability with a larger region of attraction. In the
second method, the stability is ensured by solving linear matrix inequalities
after training the neural network controller. The spectral normalization
proposed in this article improves the feasibility of the a-posteriori stability
test by constructing tighter local sectors. The numerical experiments show that
the second method provides enough performance compared with the first one while
ensuring enough stability compared with the existing reinforcement learning
algorithms.
- Abstract(参考訳): 本稿では、ニューラルネットワークが制御するシステムの安定性を確保するために、スペクトル正規化に基づく異なる視点からの2つの方法について述べる。
1つ目は、フィードバックシステムのL2ゲインが1未満の有界であり、小利得定理から導かれる安定性条件を満たすことである。
第1の方法は、安定性条件を明示的に含むが、厳密な安定性条件のため、ニューラルネットワークコントローラの性能が不十分である可能性がある。
この難しさを克服するため,第2の課題が提案され,より広いアトラクション領域での局所安定性を確保しつつ,性能の向上が図られた。
第2の方法は、ニューラルネットワークコントローラのトレーニング後に線形行列の不等式を解くことにより安定性を確保する。
本稿で提案するスペクトル正規化は, より厳密な局所セクターを構築することにより, a-posteriori 安定性試験の実現可能性を向上させる。
数値実験により,第2法は第1法と比較して十分な性能を示し,既存の強化学習アルゴリズムと比較して十分な安定性が得られた。
関連論文リスト
- Synthesizing Stable Reduced-Order Visuomotor Policies for Nonlinear
Systems via Sums-of-Squares Optimization [28.627377507894003]
本稿では,非線形システムの制御観測のためのノイズフィードバック,低次出力-制御-パーセプションポリシを提案する。
画像からのこれらのシステムが確実に安定できない場合、我々のアプローチは安定性の保証を提供する。
論文 参考訳(メタデータ) (2023-04-24T19:34:09Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Stability Verification in Stochastic Control Systems via Neural Network
Supermartingales [17.558766911646263]
2つの新しい側面を持つ一般非線形制御問題に対するアプローチを提案する。
我々は、A.s.asymptotic stabilityの証明にランキング・スーパーガレス(RSM)を使用し、ニューラルネットワークの学習方法を提案する。
論文 参考訳(メタデータ) (2021-12-17T13:05:14Z) - Contraction Theory for Nonlinear Stability Analysis and Learning-based Control: A Tutorial Overview [17.05002635077646]
収縮理論 (contraction theory) は、非自明(時間変化)非線形系の微分力学を研究するための解析ツールである。
その非線形安定解析は、線形行列の不等式として表される安定性条件を満たす適切な収縮計量を見つけるために沸騰する。
論文 参考訳(メタデータ) (2021-10-01T23:03:21Z) - Robust Stability of Neural-Network Controlled Nonlinear Systems with
Parametric Variability [2.0199917525888895]
ニューラルネットワーク制御非線形システムの安定性と安定化性の理論を考案する。
このような頑健な安定化NNコントローラの計算には、安定性保証トレーニング(SGT)も提案されている。
論文 参考訳(メタデータ) (2021-09-13T05:09:30Z) - Recurrent Neural Network Controllers Synthesis with Stability Guarantees
for Partially Observed Systems [6.234005265019845]
本稿では、不確実な部分観測システムのための動的制御系として、リカレントニューラルネットワーク(RNN)の重要なクラスを考える。
本稿では、再パラメータ化空間における安定性条件を反復的に強制する計画的ポリシー勾配法を提案する。
数値実験により,本手法は,より少ないサンプルを用いて制御器の安定化を学習し,政策勾配よりも高い最終性能を達成することを示す。
論文 参考訳(メタデータ) (2021-09-08T18:21:56Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。