Fugu-MT 論文翻訳(概要): COOL-MC: A Comprehensive Tool for Reinforcement Learning and Model Checking

論文の概要: COOL-MC: A Comprehensive Tool for Reinforcement Learning and Model Checking

arxiv url: http://arxiv.org/abs/2209.07133v1
Date: Thu, 15 Sep 2022 08:25:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-16 13:33:42.612746
Title: COOL-MC: A Comprehensive Tool for Reinforcement Learning and Model Checking
Title（参考訳）: COOL-MC:強化学習とモデルチェックのための総合ツール
Authors: Dennis Gross, Nils Jansen, Sebastian Junges, Guillermo A. Perez
Abstract要約: COOL-MCは最先端の強化学習とモデルチェックを統合するツールである。 OpenAIのジムと確率論的モデルチェッカーStormの上に構築されている。
参考スコア（独自算出の注目度）: 4.325855321261012
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: This paper presents COOL-MC, a tool that integrates state-of-the-art reinforcement learning (RL) and model checking. Specifically, the tool builds upon the OpenAI gym and the probabilistic model checker Storm. COOL-MC provides the following features: (1) a simulator to train RL policies in the OpenAI gym for Markov decision processes (MDPs) that are defined as input for Storm, (2) a new model builder for Storm, which uses callback functions to verify (neural network) RL policies, (3) formal abstractions that relate models and policies specified in OpenAI gym or Storm, and (4) algorithms to obtain bounds on the performance of so-called permissive policies. We describe the components and architecture of COOL-MC and demonstrate its features on multiple benchmark environments.
Abstract（参考訳）: 本稿では,最先端強化学習(RL)とモデル検査を統合したCOOL-MCを提案する。具体的には、このツールはopenai gymと確率的モデルチェッカーstorm上に構築されている。 COOL-MCは,(1) ストームの入力として定義されたマルコフ決定プロセス(MDP)のためのOpenAIジムでRLポリシーを訓練するシミュレータ,(2) RLポリシーの検証(神経ネットワーク)にコールバック関数を使用するStormの新しいモデルビルダー,(3) OpenAIジムやストームで指定されたモデルとポリシーを関連づける形式的抽象化,(4) いわゆるパーミッションポリシーのパフォーマンスの限界を求めるアルゴリズムを提供する。我々はCOOL-MCのコンポーネントとアーキテクチャを説明し、その特徴を複数のベンチマーク環境で示す。

関連論文リスト

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文参考訳（メタデータ） (2025-06-11T17:10:36Z)
M$^3$PC: Test-time Model Predictive Control for Pretrained Masked Trajectory Model [14.779390462893298]
本稿では,モデル予測制御(MPC)を用いて,モデル自体の予測能力を利用して行動選択を誘導する手法を提案する。 MPCは、追加パラメータトレーニングなしで事前訓練された軌道モデルの意思決定性能を著しく改善する。私たちのフレームワークは、オフラインからオンライン(O2O)のRLやゴールリーチのRLに適応することができます。
論文参考訳（メタデータ） (2024-12-07T14:44:22Z)
Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルに基づく強化学習(MBRL)は、データ駆動による意思決定と制御のための強力なアプローチである。オフラインデータセットで同一の動作をする様々なMDPが存在する可能性があるため、真のMDPに関する不確実性に対処することは困難である。本研究では,BAMDPを連続状態および動作空間で解くことのできるベイズ適応モンテカルロ計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-15T03:36:43Z)
Have You Merged My Model? On The Robustness of Large Language Model IP Protection Methods Against Model Merging [25.327483618051378]
モデル統合シナリオにおけるIP保護手法の堅牢性に関する最初の研究を行う。実験結果から,現在のLarge Language Model (LLM) の透かし技術は統合されたモデルでは生き残れないことが示唆された。本研究の目的は,モデルIP保護手法の堅牢性評価において,モデルマージが不可欠であることを示すことである。
論文参考訳（メタデータ） (2024-04-08T04:30:33Z)
Jointly Training and Pruning CNNs via Learnable Agent Guidance and Alignment [69.33930972652594]
本稿では,CNNモデルの重みと構造的プーン構造を協調的に学習するための新しい構造的プルーニング手法を提案する。本手法の中核となる要素は強化学習(RL)エージェントであり,その動作がCNNモデルの階層のプルーニング比を決定する。我々は,モデルの重みとエージェントのポリシーを反復的に訓練し,共同訓練と刈り取りを行う。
論文参考訳（メタデータ） (2024-03-28T15:22:29Z)
A Neuromorphic Architecture for Reinforcement Learning from Real-Valued Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文参考訳（メタデータ） (2023-07-06T12:33:34Z)
Unified Off-Policy Learning to Rank: a Reinforcement Learning Perspective [61.4025671743675]
メソッドをランク付けするオフポリシー学習は、ユーザがクリックデータを生成する方法に関して、強い仮定をすることが多い。オフライン強化学習は,複雑なデバイアス手法や事前知識を使わずに,様々なクリックモデルに適応できることを示す。様々な大規模データセットの結果から、CUOLRはアルゴリズムのランク付けに最先端のオフポリシー学習を一貫して上回っていることが示される。
論文参考訳（メタデータ） (2023-06-13T03:46:22Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
Meta-Reinforcement Learning for Adaptive Control of Second Order Systems [3.131740922192114]
プロセス制御では、多くのシステムは類似しており、よく理解されているダイナミクスを持ち、メタ学習を通じて一般化可能なコントローラを作成することは可能であることを示唆している。本稿では,メタ強化学習(meta-RL)制御戦略を定式化し,モデル構造などのトレーニングにおいて,既知のオフライン情報を活用する。重要な設計要素は、トレーニング中にモデルベースの情報をオフラインで利用し、新しい環境と対話するためのモデルフリーのポリシー構造を維持することである。
論文参考訳（メタデータ） (2022-09-19T18:51:33Z)
Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。強化学習と潜在変数生成モデルの組み合わせを利用する。最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文参考訳（メタデータ） (2022-04-18T22:02:32Z)
Policy Search for Model Predictive Control with Application to Agile Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文参考訳（メタデータ） (2021-12-07T17:39:24Z)
Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文参考訳（メタデータ） (2020-08-23T16:18:44Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。