論文の概要: Provably Safe Model-Based Meta Reinforcement Learning: An
Abstraction-Based Approach
- arxiv url: http://arxiv.org/abs/2109.01255v1
- Date: Fri, 3 Sep 2021 00:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 13:47:59.070466
- Title: Provably Safe Model-Based Meta Reinforcement Learning: An
Abstraction-Based Approach
- Title(参考訳): 安全なモデルに基づくメタ強化学習:抽象的アプローチ
- Authors: Xiaowu Sun, Wael Fatnassi, Ulices Santa Cruz, and Yasser Shoukry
- Abstract要約: 本研究では,不確実な非線形力学系に対して,確実に安全なニューラルネットワーク(NN)コントローラをトレーニングする問題を考察する。
私たちのアプローチは、トレーニングフェーズ中にNNコントローラのセットを学ぶことです。
タスクが実行時に利用可能になると、我々のフレームワークはこれらのNNコントローラのサブセットを慎重に選択し、最終的なNNコントローラを構成する。
- 参考スコア(独自算出の注目度): 3.569867801312134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While conventional reinforcement learning focuses on designing agents that
can perform one task, meta-learning aims, instead, to solve the problem of
designing agents that can generalize to different tasks (e.g., environments,
obstacles, and goals) that were not considered during the design or the
training of these agents. In this spirit, in this paper, we consider the
problem of training a provably safe Neural Network (NN) controller for
uncertain nonlinear dynamical systems that can generalize to new tasks that
were not present in the training data while preserving strong safety
guarantees. Our approach is to learn a set of NN controllers during the
training phase. When the task becomes available at runtime, our framework will
carefully select a subset of these NN controllers and compose them to form the
final NN controller. Critical to our approach is the ability to compute a
finite-state abstraction of the nonlinear dynamical system. This abstract model
captures the behavior of the closed-loop system under all possible NN weights,
and is used to train the NNs and compose them when the task becomes available.
We provide theoretical guarantees that govern the correctness of the resulting
NN. We evaluated our approach on the problem of controlling a wheeled robot in
cluttered environments that were not present in the training data.
- Abstract(参考訳): 従来の強化学習は1つのタスクを実行できるエージェントを設計することに焦点を当てるが、メタラーニングは代わりに、これらのエージェントの設計や訓練の間に考慮されなかったさまざまなタスク(環境、障害物、目標など)に一般化できるエージェントを設計することを目的としている。
本稿では,不確定な非線形力学系に対して,強力な安全性保証を保ちながら,訓練データに存在しない新たなタスクに一般化可能な,確実に安全なニューラルネットワーク(nn)コントローラを訓練する問題を考える。
私たちのアプローチは、トレーニングフェーズ中にNNコントローラのセットを学ぶことです。
タスクが実行時に利用可能になると、我々のフレームワークはこれらのNNコントローラのサブセットを慎重に選択し、最終的なNNコントローラを構成する。
我々のアプローチには非線形力学系の有限状態抽象を計算する能力が不可欠である。
この抽象モデルは、すべてのNN重み付きで閉ループシステムの挙動を捉え、タスクが利用可能になったときにNNを訓練し構成するために使用される。
結果のNNの正確性を管理する理論的保証を提供する。
訓練データに存在しないごちゃごちゃした環境での車輪型ロボットの制御問題に対するアプローチを評価した。
関連論文リスト
- Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Verified Compositional Neuro-Symbolic Control for Stochastic Systems
with Temporal Logic Tasks [11.614036749291216]
自律エージェントのためのニューラルネットワーク(NN)コントローラを学ぶために、最近いくつかの方法が提案されている。
これらのアプローチにおける重要な課題は、しばしば安全保証が欠如しているか、提供された保証が現実的でないことである。
本稿では,訓練されたNNコントローラの時間的構成が存在するかどうかを確認することで,この問題に対処することを目的とする。
論文 参考訳(メタデータ) (2023-11-17T20:51:24Z) - Safety Filter Design for Neural Network Systems via Convex Optimization [35.87465363928146]
ニューラルネットワーク(NN)システムの安全性を確保するために,凸最適化に依存する新しい安全フィルタを提案する。
非線形振り子システムにおいて,提案手法の有効性を数値的に示す。
論文 参考訳(メタデータ) (2023-08-16T01:30:13Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Quantization-aware Interval Bound Propagation for Training Certifiably
Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。
近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。
本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:32:38Z) - Backward Reachability Analysis of Neural Feedback Loops: Techniques for
Linear and Nonlinear Systems [59.57462129637796]
本稿では,ニューラルネットワークを用いた閉ループシステムの安全性検証のための後方到達性アプローチを提案する。
フィードバックループにおけるNNの存在は、その活性化関数の非線形性や、NNモデルは一般に可逆的ではないため、ユニークな問題セットを示す。
フィードフォワードNNで表される制御ポリシを持つ線形系と非線形系のBP過近似を計算するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-28T13:17:28Z) - Learning To Estimate Regions Of Attraction Of Autonomous Dynamical
Systems Using Physics-Informed Neural Networks [0.0]
制御された自律力学系のアトラクション領域(ROA)を推定するためにニューラルネットワークを訓練する。
この安全ネットワークは、提案した制御行動の相対的安全性を定量化し、損傷行為の選択を防止するために使用できる。
今後の研究では、運動学習タスクにおける強化学習エージェントにこの手法を適用する予定である。
論文 参考訳(メタデータ) (2021-11-18T19:58:47Z) - Provably Correct Training of Neural Network Controllers Using
Reachability Analysis [3.04585143845864]
我々は、安全と生活性を満たすことが保証されるサイバー物理システムのためのニューラルネットワーク(NN)コントローラのトレーニングの問題を考える。
我々のアプローチは、動的システムのためのモデルベース設計手法とデータ駆動アプローチを組み合わせることで、この目標を達成することである。
論文 参考訳(メタデータ) (2021-02-22T07:08:11Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - PaRoT: A Practical Framework for Robust Deep Neural Network Training [1.9034855801255839]
ディープニューラルネットワーク(DNN)は、自律走行車(AV)のような安全クリティカルなシステムに重要な応用を見出している
ブラックボックスの性質による保証のためのユニークな課題の増大により、DNNはこの種のシステムに対する規制の受け入れに根本的な問題を引き起こす。
我々は、人気のあるトレーニングプラットフォーム上で開発された新しいフレームワークPaRoTを導入し、参入障壁を大幅に減らした。
論文 参考訳(メタデータ) (2020-01-07T16:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。