論文の概要: SafePILCO: a software tool for safe and data-efficient policy synthesis
- arxiv url: http://arxiv.org/abs/2008.03273v1
- Date: Fri, 7 Aug 2020 17:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 01:13:12.833180
- Title: SafePILCO: a software tool for safe and data-efficient policy synthesis
- Title(参考訳): SafePILCO:安全でデータ効率の良いポリシー合成のためのソフトウェアツール
- Authors: Kyriakos Polymenakos, Nikitas Rontsis, Alessandro Abate and Stephen
Roberts
- Abstract要約: SafePILCOは、強化学習による安全でデータ効率のよいポリシー検索のためのソフトウェアツールである。
これは、Pythonで書かれた既知のPILCOアルゴリズムを拡張し、安全な学習をサポートする。
- 参考スコア(独自算出の注目度): 67.17251247987187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SafePILCO is a software tool for safe and data-efficient policy search with
reinforcement learning. It extends the known PILCO algorithm, originally
written in MATLAB, to support safe learning. We provide a Python implementation
and leverage existing libraries that allow the codebase to remain short and
modular, which is appropriate for wider use by the verification, reinforcement
learning, and control communities.
- Abstract(参考訳): SafePILCOは、強化学習による安全でデータ効率のよいポリシー検索のためのソフトウェアツールである。
これは、元々MATLABで書かれた既知のPILCOアルゴリズムを拡張し、安全な学習をサポートする。
我々はPythonの実装を提供し、既存のライブラリを活用してコードベースを短くモジュール化し、検証、強化学習、コントロールコミュニティによって広く使われるようにしています。
関連論文リスト
- A Comprehensive Guide to Combining R and Python code for Data Science, Machine Learning and Reinforcement Learning [42.350737545269105]
機械学習、ディープラーニング、強化学習プロジェクトを構築するために、PythonのScikit-learn、pytorch、OpenAIのジムライブラリを簡単に実行する方法を示します。
論文 参考訳(メタデータ) (2024-07-19T23:01:48Z) - SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。
それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。
私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文 参考訳(メタデータ) (2023-04-21T10:00:22Z) - Machine Learning Based Approach to Recommend MITRE ATT&CK Framework for
Software Requirements and Design Specifications [0.0]
セキュアなソフトウェアを開発するためには、ソフトウェアリポジトリをマイニングすることで、ソフトウェア開発者は攻撃者のように考える必要がある。
本稿では,機械学習アルゴリズムを用いて要求をMITRE ATT&CKデータベースにマッピングする。
論文 参考訳(メタデータ) (2023-02-10T22:15:45Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - problexity -- an open-source Python library for binary classification
problem complexity assessment [0.0]
分類問題の複雑性評価は、教師付き学習領域における多くのトピックの重要な要素である。
現在、問題複雑性尺度の計算を可能にする学術コミュニティで利用可能なツールは、C++とR言語のライブラリとしてのみ利用可能である。
本稿では,Python言語における22の複雑性尺度を推定するソフトウェアモジュールについて述べる。
論文 参考訳(メタデータ) (2022-07-14T07:32:15Z) - PyRelationAL: a python library for active learning research and development [1.0061110876649197]
アクティブラーニング(英: Active Learning, AL)は、反復的かつ経済的にデータを取得する手法の開発に焦点を当てたMLのサブフィールドである。
本稿では,AL研究のためのオープンソースライブラリであるPyRelationALを紹介する。
プールベースのアクティブラーニング戦略を構成するための2段階の設計方法論をベースとしたモジュラーツールキットについて述べる。
論文 参考訳(メタデータ) (2022-05-23T08:21:21Z) - MRCpy: A Library for Minimax Risk Classifiers [10.380882297891272]
PythonライブラリであるMRCpyは、ロバストリスク最小化(RRM)アプローチに基づいて、ミニマックスリスク分類器(MRC)を実装している。
MRCpyは、Scikit-learnのような人気のあるPythonライブラリの標準に従い、可読性と使いやすさと、他のライブラリとのシームレスな統合を容易にする。
論文 参考訳(メタデータ) (2021-08-04T10:31:20Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。