論文の概要: Deep Reinforcement Learning with Linear Quadratic Regulator Regions
- arxiv url: http://arxiv.org/abs/2002.09820v2
- Date: Wed, 26 Feb 2020 03:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 09:36:16.730717
- Title: Deep Reinforcement Learning with Linear Quadratic Regulator Regions
- Title(参考訳): 線形二次レギュレータ領域を用いた深部強化学習
- Authors: Gabriel I. Fernandez, Colin Togashi, Dennis W. Hong, Lin F. Yang
- Abstract要約: シミュレーションで訓練されたポリシーの出力に対して,アトラクションの安定領域を保証する新しい手法を提案する。
実システムに振り上げ反転振子のシミュレーションポリシを転送し,本手法の有効性を実証し,本手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 26.555266610250797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practitioners often rely on compute-intensive domain randomization to ensure
reinforcement learning policies trained in simulation can robustly transfer to
the real world. Due to unmodeled nonlinearities in the real system, however,
even such simulated policies can still fail to perform stably enough to acquire
experience in real environments. In this paper we propose a novel method that
guarantees a stable region of attraction for the output of a policy trained in
simulation, even for highly nonlinear systems. Our core technique is to use
"bias-shifted" neural networks for constructing the controller and training the
network in the simulator. The modified neural networks not only capture the
nonlinearities of the system but also provably preserve linearity in a certain
region of the state space and thus can be tuned to resemble a linear quadratic
regulator that is known to be stable for the real system. We have tested our
new method by transferring simulated policies for a swing-up inverted pendulum
to real systems and demonstrated its efficacy.
- Abstract(参考訳): シミュレーションで訓練された強化学習ポリシーが現実世界に堅牢に移行できるように、実践者はしばしば計算集約的なドメインランダム化に頼る。
しかし、実際のシステムにおける非モデル化された非線形性のため、そのようなシミュレートされたポリシーでさえ、実際の環境での経験を得るのに十分安定に実行できない。
本稿では,高度非線形システムにおいても,シミュレーションで訓練されたポリシーの出力に対して,アトラクションの安定領域を保証する新しい手法を提案する。
私たちのコア技術は、コントローラの構築とシミュレータ内のネットワークのトレーニングに"バイアスシフト"ニューラルネットワークを使用することです。
修正されたニューラルネットワークは、システムの非線形性をキャプチャするだけでなく、状態空間の特定の領域における線形性を確実に保持するので、実システムに対して安定であることが知られている線形二次レギュレータに似ているように調整することができる。
実システムに振り上げ反転振子のシミュレーションポリシを転送し,本手法の有効性を実証し,本手法の有効性を検証した。
関連論文リスト
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - Safe Reach Set Computation via Neural Barrier Certificates [46.1784503246807]
本稿では,自律システムのオンライン安全性検証のための新しい手法を提案する。
我々のアプローチでは、パラメータ化されたニューラルネットワークが与えられた初期セット、安全でないセット、時間的地平線に依存する障壁証明書を使用する。
このようなネットワークは、状態空間の領域からサンプリングされたシステムシミュレーションを用いて、効率的にオフラインで訓練される。
論文 参考訳(メタデータ) (2024-04-29T15:49:37Z) - Lyapunov-stable Neural Control for State and Output Feedback: A Novel Formulation [67.63756749551924]
学習ベースのニューラルネットワーク(NN)制御ポリシは、ロボット工学と制御の幅広いタスクにおいて、印象的な経験的パフォーマンスを示している。
非線形力学系を持つNNコントローラのトラクション領域(ROA)に対するリアプノフ安定性の保証は困難である。
我々は、高速な経験的ファルシフィケーションと戦略的正則化を用いて、Lyapunov証明書とともにNNコントローラを学習するための新しいフレームワークを実証する。
論文 参考訳(メタデータ) (2024-04-11T17:49:15Z) - Differentially Flat Learning-based Model Predictive Control Using a
Stability, State, and Input Constraining Safety Filter [10.52705437098686]
学習に基づく最適制御アルゴリズムは、過去の軌跡データとシステムダイナミクスの学習モデルを用いて未知のシステムを制御する。
本稿では、微分平坦性を利用して、最先端の学習ベースコントローラに類似した性能を実現する非線形制御器を提案する。
論文 参考訳(メタデータ) (2023-07-20T02:42:23Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Adaptive Robust Model Predictive Control via Uncertainty Cancellation [25.736296938185074]
本稿では,動的に重要な不確かさを補う学習に基づく頑健な予測制御アルゴリズムを提案する。
我々は、一定の等価な「推定とキャンセル」制御法に着想を得た、非線形フィードバックポリシーのクラスを最適化する。
論文 参考訳(メタデータ) (2022-12-02T18:54:23Z) - Learning over All Stabilizing Nonlinear Controllers for a
Partially-Observed Linear System [4.3012765978447565]
線形力学系に対する非線形出力フィードバックコントローラのパラメータ化を提案する。
提案手法は, 制約を満たすことなく, 部分的に観測可能な線形力学系の閉ループ安定性を保証する。
論文 参考訳(メタデータ) (2021-12-08T10:43:47Z) - Adaptive Robust Model Predictive Control with Matched and Unmatched
Uncertainty [28.10549712956161]
離散時間系のダイナミクスにおける大きな不確実性を扱うことができる学習ベースの堅牢な予測制御アルゴリズムを提案する。
既存の学習に基づく予測制御アルゴリズムが大規模な不確実性が存在する場合の安全性を確保することができず、性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-16T17:47:02Z) - Controlling nonlinear dynamical systems into arbitrary states using
machine learning [77.34726150561087]
機械学習(ML)を活用した,新しい完全データ駆動制御方式を提案する。
最近開発されたMLに基づく複雑なシステムの予測機能により、非線形系は任意の初期状態から来る任意の動的対象状態に留まることが証明された。
必要なデータ量が少なく,柔軟性の高いコントロールスキームを備えることで,工学から医学まで幅広い応用の可能性について簡単に議論する。
論文 参考訳(メタデータ) (2021-02-23T16:58:26Z) - Active Learning for Nonlinear System Identification with Guarantees [102.43355665393067]
状態遷移が既知の状態-作用対の特徴埋め込みに線形に依存する非線形力学系のクラスについて検討する。
そこで本稿では, トラジェクティブ・プランニング, トラジェクティブ・トラッキング, システムの再推定という3つのステップを繰り返すことで, この問題を解決するためのアクティブ・ラーニング・アプローチを提案する。
本手法は, 非線形力学系を標準線形回帰の統計速度と同様, パラメトリック速度で推定する。
論文 参考訳(メタデータ) (2020-06-18T04:54:11Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。