論文の概要: COOL-MC: A Comprehensive Tool for Reinforcement Learning and Model
Checking
- arxiv url: http://arxiv.org/abs/2209.07133v1
- Date: Thu, 15 Sep 2022 08:25:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:33:42.612746
- Title: COOL-MC: A Comprehensive Tool for Reinforcement Learning and Model
Checking
- Title(参考訳): COOL-MC:強化学習とモデルチェックのための総合ツール
- Authors: Dennis Gross, Nils Jansen, Sebastian Junges, Guillermo A. Perez
- Abstract要約: COOL-MCは最先端の強化学習とモデルチェックを統合するツールである。
OpenAIのジムと確率論的モデルチェッカーStormの上に構築されている。
- 参考スコア(独自算出の注目度): 4.325855321261012
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper presents COOL-MC, a tool that integrates state-of-the-art
reinforcement learning (RL) and model checking. Specifically, the tool builds
upon the OpenAI gym and the probabilistic model checker Storm. COOL-MC provides
the following features: (1) a simulator to train RL policies in the OpenAI gym
for Markov decision processes (MDPs) that are defined as input for Storm, (2) a
new model builder for Storm, which uses callback functions to verify (neural
network) RL policies, (3) formal abstractions that relate models and policies
specified in OpenAI gym or Storm, and (4) algorithms to obtain bounds on the
performance of so-called permissive policies. We describe the components and
architecture of COOL-MC and demonstrate its features on multiple benchmark
environments.
- Abstract(参考訳): 本稿では,最先端強化学習(RL)とモデル検査を統合したCOOL-MCを提案する。
具体的には、このツールはopenai gymと確率的モデルチェッカーstorm上に構築されている。
COOL-MCは,(1) ストームの入力として定義されたマルコフ決定プロセス(MDP)のためのOpenAIジムでRLポリシーを訓練するシミュレータ,(2) RLポリシーの検証(神経ネットワーク)にコールバック関数を使用するStormの新しいモデルビルダー,(3) OpenAIジムやストームで指定されたモデルとポリシーを関連づける形式的抽象化,(4) いわゆるパーミッションポリシーのパフォーマンスの限界を求めるアルゴリズムを提供する。
我々はCOOL-MCのコンポーネントとアーキテクチャを説明し、その特徴を複数のベンチマーク環境で示す。
関連論文リスト
- A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Unified Off-Policy Learning to Rank: a Reinforcement Learning
Perspective [61.4025671743675]
メソッドをランク付けするオフポリシー学習は、ユーザがクリックデータを生成する方法に関して、強い仮定をすることが多い。
オフライン強化学習は,複雑なデバイアス手法や事前知識を使わずに,様々なクリックモデルに適応できることを示す。
様々な大規模データセットの結果から、CUOLRはアルゴリズムのランク付けに最先端のオフポリシー学習を一貫して上回っていることが示される。
論文 参考訳(メタデータ) (2023-06-13T03:46:22Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Meta-Reinforcement Learning for Adaptive Control of Second Order Systems [3.131740922192114]
プロセス制御では、多くのシステムは類似しており、よく理解されているダイナミクスを持ち、メタ学習を通じて一般化可能なコントローラを作成することは可能であることを示唆している。
本稿では,メタ強化学習(meta-RL)制御戦略を定式化し,モデル構造などのトレーニングにおいて,既知のオフライン情報を活用する。
重要な設計要素は、トレーニング中にモデルベースの情報をオフラインで利用し、新しい環境と対話するためのモデルフリーのポリシー構造を維持することである。
論文 参考訳(メタデータ) (2022-09-19T18:51:33Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Boosting Offline Reinforcement Learning with Residual Generative
Modeling [27.50950972741753]
オフライン強化学習(RL)は、オンライン探索なしでオフライン体験を記録して、ほぼ最適ポリシーを学習しようとする。
提案手法は,異なるベンチマークデータセットにおいて,より正確なポリシー近似を学習可能であることを示す。
さらに,提案手法は,マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームHonor of Kingsにおいて,複雑な制御タスクにおいて,より競争力のあるAIエージェントを学習可能であることを示す。
論文 参考訳(メタデータ) (2021-06-19T03:41:14Z) - mlOSP: Towards a Unified Implementation of Regression Monte Carlo
Algorithms [0.0]
最適停止問題に対する機械学習のための計算テンプレートであるmlOSPを紹介する。
テンプレートはR統計環境で実装され、GitHubリポジトリ経由で公開されている。
論文 参考訳(メタデータ) (2020-12-01T18:41:02Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。