論文の概要: Neurosymbolic Reinforcement Learning with Formally Verified Exploration
- arxiv url: http://arxiv.org/abs/2009.12612v2
- Date: Mon, 26 Oct 2020 14:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 08:27:41.633449
- Title: Neurosymbolic Reinforcement Learning with Formally Verified Exploration
- Title(参考訳): 形式的検証によるニューロシンボリック強化学習
- Authors: Greg Anderson, Abhinav Verma, Isil Dillig, Swarat Chaudhuri
- Abstract要約: 本稿では,連続した状態と行動空間を確実に安全に探索するためのフレームワークであるRevelを紹介する。
確実に安全な深層RLの鍵となる課題は、学習ループ内のニューラルネットワークの繰り返し検証が計算不可能であることだ。
この課題は、近似勾配を持つ一般のニューロシンボリッククラスと、効率的な検証を可能にするシンボリックポリシーのより制限されたクラスという2つのポリシークラスを用いて解決する。
- 参考スコア(独自算出の注目度): 21.23874800091344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Revel, a partially neural reinforcement learning (RL) framework
for provably safe exploration in continuous state and action spaces. A key
challenge for provably safe deep RL is that repeatedly verifying neural
networks within a learning loop is computationally infeasible. We address this
challenge using two policy classes: a general, neurosymbolic class with
approximate gradients and a more restricted class of symbolic policies that
allows efficient verification. Our learning algorithm is a mirror descent over
policies: in each iteration, it safely lifts a symbolic policy into the
neurosymbolic space, performs safe gradient updates to the resulting policy,
and projects the updated policy into the safe symbolic subset, all without
requiring explicit verification of neural networks. Our empirical results show
that Revel enforces safe exploration in many scenarios in which Constrained
Policy Optimization does not, and that it can discover policies that outperform
those learned through prior approaches to verified exploration.
- Abstract(参考訳): 本稿では,連続状態と動作空間を安全に探索するための部分神経強化学習(rl)フレームワークであるrevelを提案する。
確実に安全な深層RLの鍵となる課題は、学習ループ内のニューラルネットワークの繰り返し検証が計算不可能であることだ。
我々は,この課題に対して,概略勾配を持つ一般の神経シンボリッククラスと,効率的な検証を可能にするより制限されたシンボリックポリシクラスという2つのポリシークラスを用いて対処する。
我々の学習アルゴリズムは、ポリシーに対するミラー降下であり、各イテレーションにおいて、ニューロシンボリック空間にシンボルポリシーを安全に持ち上げ、結果のポリシーに安全な勾配更新を行い、更新されたポリシーをニューラルネットワークの明示的な検証を必要とせずに安全なシンボルサブセットに投影する。
実験結果から,revelは,制約付きポリシー最適化が行わない多くのシナリオにおいて安全な探索を強制すると同時に,検証済みの探索に先行するアプローチで学習したポリシーに勝るポリシを発見できることがわかった。
関連論文リスト
- Compositional Policy Learning in Stochastic Control Systems with Formal
Guarantees [0.0]
強化学習は複雑な制御タスクに対するニューラルネットワークポリシーの学習において有望な結果を示している。
本研究では,環境におけるニューラルネットワークポリシーの構成を学習するための新しい手法を提案する。
正式な証明書は、ポリシーの行動に関する仕様が望ましい確率で満たされていることを保証します。
論文 参考訳(メタデータ) (2023-12-03T17:04:18Z) - Deep Explainable Relational Reinforcement Learning: A Neuro-Symbolic
Approach [18.38878415765146]
本稿では,ニューラル世界とシンボリック世界の両方の長所を生かした,説明可能な強化学習(DERRL)を提案する。
DERRLは、シンボリックプランニングからのリレーショナル表現と制約を深層学習と組み合わせて解釈可能なポリシーを抽出する。
これらのポリシーは、それぞれの決定(あるいは行動)がどのように到着するかを説明する論理的なルールの形式です。
論文 参考訳(メタデータ) (2023-04-17T15:11:40Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Neuro-Symbolic Reinforcement Learning with First-Order Logic [63.003353499732434]
論理ニューラルネットワークと呼ばれる最近のニューラルシンボリック・フレームワークを用いたテキストベースゲームのための新しいRL手法を提案する。
実験の結果,提案手法を用いたRLトレーニングは,TextWorldベンチマークにおいて,他の最先端のニューロシンボリック手法よりもはるかに高速に収束することがわかった。
論文 参考訳(メタデータ) (2021-10-21T08:21:49Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Learning Intrinsic Symbolic Rewards in Reinforcement Learning [7.101885582663675]
低次元のシンボル木の形で高密度報酬を発見する方法を提案する。
得られた高密度報酬は、ベンチマークタスクを解くためのRLポリシーに有効な信号であることを示す。
論文 参考訳(メタデータ) (2020-10-08T00:02:46Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。