論文の概要: LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2209.10341v1
- Date: Wed, 21 Sep 2022 13:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:50:58.596645
- Title: LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning
- Title(参考訳): LCRL:論理制約強化学習による認証政策合成
- Authors: Hosein Hasanbeig and Daniel Kroening and Alessandro Abate
- Abstract要約: LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
- 参考スコア(独自算出の注目度): 78.2286146954051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LCRL is a software tool that implements model-free Reinforcement Learning
(RL) algorithms over unknown Markov Decision Processes (MDPs), synthesising
policies that satisfy a given linear temporal specification with maximal
probability. LCRL leverages partially deterministic finite-state machines known
as Limit Deterministic Buchi Automata (LDBA) to express a given linear temporal
specification. A reward function for the RL algorithm is shaped on-the-fly,
based on the structure of the LDBA. Theoretical guarantees under proper
assumptions ensure the convergence of the RL algorithm to an optimal policy
that maximises the satisfaction probability. We present case studies to
demonstrate the applicability, ease of use, scalability, and performance of
LCRL. Owing to the LDBA-guided exploration and LCRL model-free architecture, we
observe robust performance, which also scales well when compared to standard RL
approaches (whenever applicable to LTL specifications). Full instructions on
how to execute all the case studies in this paper are provided on a GitHub page
that accompanies the LCRL distribution www.github.com/grockious/lcrl.
- Abstract(参考訳): LCRLは、未知のマルコフ決定プロセス(MDP)上でモデルフリー強化学習(RL)アルゴリズムを実装し、与えられた線形時間仕様を最大確率で満足するポリシーを合成するソフトウェアツールである。
LCRLは、リミット決定性Buchi Automata (LDBA) として知られる部分決定論的有限状態マシンを利用して、与えられた線形時間仕様を表現している。
RLアルゴリズムの報酬関数はLDBAの構造に基づいてオンザフライで形成される。
適切な仮定の下での理論的保証は、RLアルゴリズムの満足度確率を最大化する最適なポリシーへの収束を保証する。
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
LDBA誘導探索とLCRLモデルフリーアーキテクチャにより、標準的なRLアプローチ(LTL仕様に適用可能な場合)と比較して、ロバスト性能も良好に向上する。
本稿では,lcrl ディストリビューション www.github.com/grockious/lcrl に対応するgithub ページ上で,ケーススタディの実施方法の全説明を行う。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - ShinRL: A Library for Evaluating RL Algorithms from Theoretical and
Practical Perspectives [11.675763847424786]
本稿では、強化学習(RL)アルゴリズムを評価するためのオープンソースのライブラリであるShinRLを紹介する。
ShinRLは、RLアルゴリズムの振る舞いを掘り下げるためのメトリクスを計算することができるRL環境インターフェースを提供する。
ShinRLのこれらの2つの特徴を組み合わせることで、深層Q学習の振る舞いをより容易に分析できることを示す。
論文 参考訳(メタデータ) (2021-12-08T05:34:46Z) - Towards Standardizing Reinforcement Learning Approaches for Stochastic
Production Scheduling [77.34726150561087]
強化学習はスケジューリングの問題を解決するのに使える。
既存の研究は、コードが利用できない複雑なシミュレーションに依存している。
から選ぶべきRLの設計の広大な配列があります。
モデル記述の標準化 - 生産セットアップとRL設計の両方 - と検証スキームは前提条件です。
論文 参考訳(メタデータ) (2021-04-16T16:07:10Z) - Reinforcement Learning Based Temporal Logic Control with Maximum
Probabilistic Satisfaction [5.337302350000984]
本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。
RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
論文 参考訳(メタデータ) (2020-10-14T03:49:16Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。