論文の概要: Model-Based Safe Policy Search from Signal Temporal Logic Specifications
Using Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2103.15938v1
- Date: Mon, 29 Mar 2021 20:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 14:32:50.751698
- Title: Model-Based Safe Policy Search from Signal Temporal Logic Specifications
Using Recurrent Neural Networks
- Title(参考訳): リカレントニューラルネットワークを用いた信号時間論理仕様からのモデルベース安全ポリシー探索
- Authors: Wenliang Liu and Calin Belta
- Abstract要約: 本稿では,STL (Signal Temporal Logic) の仕様からコントローラを学習するためのポリシー探索手法を提案する。
システムモデルは未知であり、制御ポリシとともに学習される。
その結果,本手法は非常に少ないシステム実行で所定の仕様を満たせることが明らかとなり,オンライン制御に活用できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 1.005130974691351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a policy search approach to learn controllers from specifications
given as Signal Temporal Logic (STL) formulae. The system model is unknown, and
it is learned together with the control policy. The model is implemented as a
feedforward neural network (FNN). To capture the history dependency of the STL
specification, we use a recurrent neural network (RNN) to implement the control
policy. In contrast to prevalent model-free methods, the learning approach
proposed here takes advantage of the learned model and is more efficient. We
use control barrier functions (CBFs) with the learned model to improve the
safety of the system. We validate our algorithm via simulations. The results
show that our approach can satisfy the given specification within very few
system runs, and therefore it has the potential to be used for on-line control.
- Abstract(参考訳): 本稿では,STL(Signal Temporal Logic)の仕様からコントローラを学習するためのポリシー探索手法を提案する。
システムモデルは未知であり、制御ポリシとともに学習される。
このモデルはfeedforward neural network (fnn)として実装されている。
STL仕様の履歴依存性を捉えるために、リカレントニューラルネットワーク(RNN)を使用して制御ポリシーを実装します。
一般的なモデルフリー手法とは対照的に、ここで提案する学習アプローチは学習モデルを利用しており、より効率的である。
制御障壁関数(CBF)と学習モデルを用いてシステムの安全性を向上させる。
シミュレーションによるアルゴリズムの検証を行う。
その結果,本手法は非常に少ないシステム実行で所定の仕様を満たせることが明らかとなり,オンライン制御に活用できる可能性が示唆された。
関連論文リスト
- A Neurosymbolic Approach to the Verification of Temporal Logic
Properties of Learning enabled Control Systems [0.0]
本稿では,一般的なSTL仕様に対するニューラルネットワーク(NN)コントローラの検証モデルを提案する。
また、一般的なアクティベーション機能を持つニューラルネットワークコントローラに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-07T04:08:33Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Recurrent neural network-based Internal Model Control of unknown
nonlinear stable systems [0.30458514384586394]
Gated Recurrent Neural Networks (RNN)は、動的システムを学ぶための人気のあるツールとなっている。
本稿では、内部モデル制御(IMC)アーキテクチャの合成にこれらのネットワークをどのように適用できるかについて議論する。
論文 参考訳(メタデータ) (2021-08-10T11:02:25Z) - Stochastic Deep Model Reference Adaptive Control [9.594432031144715]
本稿では,ディープニューラルネットワークを用いたモデル参照適応制御を提案する。
Deep Model Reference Adaptive Controlは、DNNモデルの出力層重みをリアルタイムに適応させるために、リアプノフ法を用いる。
データ駆動型教師付き学習アルゴリズムは、内部層パラメータの更新に使用される。
論文 参考訳(メタデータ) (2021-08-04T14:05:09Z) - Reinforcement Learning with External Knowledge by using Logical Neural
Networks [67.46162586940905]
論理ニューラルネットワーク(LNN)と呼ばれる最近のニューラルシンボリックフレームワークは、ニューラルネットワークとシンボリックロジックの両方のキープロパティを同時に提供することができる。
外部知識ソースからのモデルフリー強化学習を可能にする統合手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T12:34:59Z) - Generating Probabilistic Safety Guarantees for Neural Network
Controllers [30.34898838361206]
ダイナミクスモデルを使用して、ニューラルネットワークコントローラが安全に動作するために保持する必要がある出力プロパティを決定します。
ニューラルネットワークポリシの近似を効率的に生成するための適応的検証手法を開発した。
本手法は,航空機衝突回避ニューラルネットワークの確率的安全性を保証することができることを示す。
論文 参考訳(メタデータ) (2021-03-01T18:48:21Z) - Recurrent Neural Network Controllers for Signal Temporal Logic
Specifications Subject to Safety Constraints [0.2320417845168326]
本稿では,離散時間システムの最適制御戦略を決定するために,リカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。
RNNは時間の経過とともにシステムの情報を格納できるので、信号時相論理式で規定される動的時間的要求の満足度を決定することができる。
論文 参考訳(メタデータ) (2020-09-24T03:34:02Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。