Fugu-MT 論文翻訳(概要): SafePILCO: a software tool for safe and data-efficient policy synthesis

論文の概要: SafePILCO: a software tool for safe and data-efficient policy synthesis

arxiv url: http://arxiv.org/abs/2008.03273v1
Date: Fri, 7 Aug 2020 17:17:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-02 01:13:12.833180
Title: SafePILCO: a software tool for safe and data-efficient policy synthesis
Title（参考訳）: SafePILCO:安全でデータ効率の良いポリシー合成のためのソフトウェアツール
Authors: Kyriakos Polymenakos, Nikitas Rontsis, Alessandro Abate and Stephen Roberts
Abstract要約: SafePILCOは、強化学習による安全でデータ効率のよいポリシー検索のためのソフトウェアツールである。これは、Pythonで書かれた既知のPILCOアルゴリズムを拡張し、安全な学習をサポートする。
参考スコア（独自算出の注目度）: 67.17251247987187
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: SafePILCO is a software tool for safe and data-efficient policy search with reinforcement learning. It extends the known PILCO algorithm, originally written in MATLAB, to support safe learning. We provide a Python implementation and leverage existing libraries that allow the codebase to remain short and modular, which is appropriate for wider use by the verification, reinforcement learning, and control communities.
Abstract（参考訳）: SafePILCOは、強化学習による安全でデータ効率のよいポリシー検索のためのソフトウェアツールである。これは、元々MATLABで書かれた既知のPILCOアルゴリズムを拡張し、安全な学習をサポートする。我々はPythonの実装を提供し、既存のライブラリを活用してコードベースを短くモジュール化し、検証、強化学習、コントロールコミュニティによって広く使われるようにしています。

関連論文リスト

Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文参考訳（メタデータ） (2026-02-07T07:42:07Z)
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
A Comprehensive Guide to Combining R and Python code for Data Science, Machine Learning and Reinforcement Learning [42.350737545269105]
機械学習、ディープラーニング、強化学習プロジェクトを構築するために、PythonのScikit-learn、pytorch、OpenAIのジムライブラリを簡単に実行する方法を示します。
論文参考訳（メタデータ） (2024-07-19T23:01:48Z)
SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文参考訳（メタデータ） (2023-04-21T10:00:22Z)
Machine Learning Based Approach to Recommend MITRE ATT&CK Framework for Software Requirements and Design Specifications [0.0]
セキュアなソフトウェアを開発するためには、ソフトウェアリポジトリをマイニングすることで、ソフトウェア開発者は攻撃者のように考える必要がある。本稿では,機械学習アルゴリズムを用いて要求をMITRE ATT&CKデータベースにマッピングする。
論文参考訳（メタデータ） (2023-02-10T22:15:45Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文参考訳（メタデータ） (2022-10-26T05:37:51Z)
problexity -- an open-source Python library for binary classification problem complexity assessment [0.0]
分類問題の複雑性評価は、教師付き学習領域における多くのトピックの重要な要素である。現在、問題複雑性尺度の計算を可能にする学術コミュニティで利用可能なツールは、C++とR言語のライブラリとしてのみ利用可能である。本稿では,Python言語における22の複雑性尺度を推定するソフトウェアモジュールについて述べる。
論文参考訳（メタデータ） (2022-07-14T07:32:15Z)
PyRelationAL: a python library for active learning research and development [1.0061110876649197]
アクティブラーニング(英: Active Learning, AL)は、反復的かつ経済的にデータを取得する手法の開発に焦点を当てたMLのサブフィールドである。本稿では,AL研究のためのオープンソースライブラリであるPyRelationALを紹介する。プールベースのアクティブラーニング戦略を構成するための2段階の設計方法論をベースとしたモジュラーツールキットについて述べる。
論文参考訳（メタデータ） (2022-05-23T08:21:21Z)
MRCpy: A Library for Minimax Risk Classifiers [10.380882297891272]
PythonライブラリであるMRCpyは、ロバストリスク最小化(RRM)アプローチに基づいて、ミニマックスリスク分類器(MRC)を実装している。 MRCpyは、Scikit-learnのような人気のあるPythonライブラリの標準に従い、可読性と使いやすさと、他のライブラリとのシームレスな統合を容易にする。
論文参考訳（メタデータ） (2021-08-04T10:31:20Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Chance-Constrained Trajectory Optimization for Safe Exploration and Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-05-09T05:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。