論文の概要: SafePILCO: a software tool for safe and data-efficient policy synthesis
- arxiv url: http://arxiv.org/abs/2008.03273v1
- Date: Fri, 7 Aug 2020 17:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 01:13:12.833180
- Title: SafePILCO: a software tool for safe and data-efficient policy synthesis
- Title(参考訳): SafePILCO:安全でデータ効率の良いポリシー合成のためのソフトウェアツール
- Authors: Kyriakos Polymenakos, Nikitas Rontsis, Alessandro Abate and Stephen
Roberts
- Abstract要約: SafePILCOは、強化学習による安全でデータ効率のよいポリシー検索のためのソフトウェアツールである。
これは、Pythonで書かれた既知のPILCOアルゴリズムを拡張し、安全な学習をサポートする。
- 参考スコア(独自算出の注目度): 67.17251247987187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SafePILCO is a software tool for safe and data-efficient policy search with
reinforcement learning. It extends the known PILCO algorithm, originally
written in MATLAB, to support safe learning. We provide a Python implementation
and leverage existing libraries that allow the codebase to remain short and
modular, which is appropriate for wider use by the verification, reinforcement
learning, and control communities.
- Abstract(参考訳): SafePILCOは、強化学習による安全でデータ効率のよいポリシー検索のためのソフトウェアツールである。
これは、元々MATLABで書かれた既知のPILCOアルゴリズムを拡張し、安全な学習をサポートする。
我々はPythonの実装を提供し、既存のライブラリを活用してコードベースを短くモジュール化し、検証、強化学習、コントロールコミュニティによって広く使われるようにしています。
関連論文リスト
- SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。
それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。
私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文 参考訳(メタデータ) (2023-04-21T10:00:22Z) - Machine Learning Based Approach to Recommend MITRE ATT&CK Framework for
Software Requirements and Design Specifications [0.0]
セキュアなソフトウェアを開発するためには、ソフトウェアリポジトリをマイニングすることで、ソフトウェア開発者は攻撃者のように考える必要がある。
本稿では,機械学習アルゴリズムを用いて要求をMITRE ATT&CKデータベースにマッピングする。
論文 参考訳(メタデータ) (2023-02-10T22:15:45Z) - Developing Hands-on Labs for Source Code Vulnerability Detection with AI [0.0]
我々は、将来のIT専門家をセキュアなプログラミングの習慣へと導くために、モジュールの学習と実験室への手引きを含むフレームワークを提案する。
このテーマは、ソースコードとログファイル分析ツールを使用して、セキュアなプログラミングプラクティスを学生に紹介するラボで、学習モジュールを設計することを目的としています。
論文 参考訳(メタデータ) (2023-02-01T20:53:58Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - problexity -- an open-source Python library for binary classification
problem complexity assessment [0.0]
分類問題の複雑性評価は、教師付き学習領域における多くのトピックの重要な要素である。
現在、問題複雑性尺度の計算を可能にする学術コミュニティで利用可能なツールは、C++とR言語のライブラリとしてのみ利用可能である。
本稿では,Python言語における22の複雑性尺度を推定するソフトウェアモジュールについて述べる。
論文 参考訳(メタデータ) (2022-07-14T07:32:15Z) - Barrier Certified Safety Learning Control: When Sum-of-Square
Programming Meets Reinforcement Learning [0.0]
本研究は、強化学習よりも制御障壁関数を採用し、安全性を完全に維持するための補償アルゴリズムを提案する。
2次プログラミングに基づく強化学習法と比較して、我々の2次プログラミングに基づく強化学習は、その優位性を示している。
論文 参考訳(メタデータ) (2022-06-16T04:38:50Z) - PyRelationAL: A Library for Active Learning Research and Development [0.11545092788508224]
PyRelationALは、アクティブラーニング(AL)研究のためのオープンソースライブラリである。
既存の文献に基づいたベンチマークデータセットとALタスク設定へのアクセスを提供する。
我々は、ベンチマークデータセットのPyRelationALコレクションの実験を行い、ALが提供できる相当な経済状況を示す。
論文 参考訳(メタデータ) (2022-05-23T08:21:21Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。