論文の概要: Learning on Abstract Domains: A New Approach for Verifiable Guarantee in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.06931v1
- Date: Sun, 13 Jun 2021 06:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 13:51:42.956022
- Title: Learning on Abstract Domains: A New Approach for Verifiable Guarantee in
Reinforcement Learning
- Title(参考訳): 抽象ドメインの学習:強化学習における検証可能な保証のための新しいアプローチ
- Authors: Peng Jin, Min Zhang, Jianwen Li, Li Han, Xuejun Wen
- Abstract要約: 有限抽象領域上でDRLシステムを学習するための抽象的アプローチを提案する。
入力状態が有限なニューラルネットワークを生成し、ホスティングDRLシステムが直接検証可能である。
- 参考スコア(独自算出の注目度): 9.428825075908131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Formally verifying Deep Reinforcement Learning (DRL) systems is a challenging
task due to the dynamic continuity of system behaviors and the black-box
feature of embedded neural networks. In this paper, we propose a novel
abstraction-based approach to train DRL systems on finite abstract domains
instead of concrete system states. It yields neural networks whose input states
are finite, making hosting DRL systems directly verifiable using model checking
techniques. Our approach is orthogonal to existing DRL algorithms and
off-the-shelf model checkers. We implement a resulting prototype training and
verification framework and conduct extensive experiments on the
state-of-the-art benchmark. The results show that the systems trained in our
approach can be verified more efficiently while they retain comparable
performance against those that are trained without abstraction.
- Abstract(参考訳): システム動作の動的連続性と組込みニューラルネットワークのブラックボックス機能のために,DRL(Deep Reinforcement Learning)システムの形式的検証は難しい作業である。
本稿では,具体的なシステム状態ではなく,有限抽象領域上でDRLシステムを学習するための新しい抽象的アプローチを提案する。
入力状態が有限なニューラルネットワークを生成し、モデルチェック技術を用いてDRLシステムを直接検証する。
我々のアプローチは既存のDRLアルゴリズムや市販モデルチェッカーと直交する。
得られたプロトタイプのトレーニングと検証フレームワークを実装し,最先端ベンチマークで広範な実験を行う。
その結果,本手法で訓練されたシステムは,抽象化せずに訓練されたシステムと同等の性能を保ちながら,より効率的に検証できることがわかった。
関連論文リスト
- Reinforcement Learning for Online Testing of Autonomous Driving Systems: a Replication and Extension Study [15.949975158039452]
最近の研究では、Reinforcement Learningはディープニューラルネットワーク対応システムのオンラインテストの代替技術より優れていることが示されている。
この作品は、その経験的研究の再現と拡張である。
その結果、我々の新しいRLエージェントは、ランダムテストよりも優れた効果的なポリシーに収束できることがわかった。
論文 参考訳(メタデータ) (2024-03-20T16:39:17Z) - Real-World Fluid Directed Rigid Body Control via Deep Reinforcement
Learning [7.714620721734689]
ボックス・オ・フロー(Box o Flows)は、動的実世界のシナリオにおいてRLアルゴリズムを体系的に評価する実験的な制御システムである。
モデルフリーなRLアルゴリズムは, 単純な報酬仕様を用いて, 様々な複雑な振る舞いを合成できることを示す。
この予備的な研究から得られた洞察とBox o Flowsのようなシステムの可用性は、体系的なRLアルゴリズムの開発を支援するものだと考えています。
論文 参考訳(メタデータ) (2024-02-08T23:35:03Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Efficient Reinforcement Learning Through Trajectory Generation [5.766441610380447]
実世界のアプリケーションで強化学習を使用する上で重要な障壁は、優れた制御ポリシーを学ぶために多数のシステムインタラクションが必要であることである。
歴史的データから制御ポリシを学習することにより,物理環境との相互作用を減らすために,オフ・ポリティクスとオフラインRL法が提案されている。
本稿では,新たなトラジェクトリを適応的に生成するトラジェクトリ生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-30T18:49:43Z) - Taming Reachability Analysis of DNN-Controlled Systems via
Abstraction-Based Training [14.787056022080625]
本稿では, 到達可能性解析における過剰近似DNNの欠如を回避するための, 抽象的アプローチを提案する。
我々は、実数をトレーニングの間隔に抽象化する抽象層を挿入することで、従来のDNNを拡張した。
我々は、DNN制御システムに対する最初のブラックボックス到達可能性分析手法を考案し、訓練されたDNNは抽象状態に対するアクションのためのブラックボックスオラクルとしてのみクエリされる。
論文 参考訳(メタデータ) (2022-11-21T00:11:50Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - Towards Scalable Verification of RL-Driven Systems [4.984294363450854]
whiRL 2.0は、深層強化学習システムにおいて、興味のある複雑な特性を検証するための新しいアプローチを実装するツールである。
提案手法がDRLシステムの内部動作と一般化可能性に関する洞察をいかに提供するかを示す。
論文 参考訳(メタデータ) (2021-05-25T13:34:40Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。