論文の概要: Formal Methods with a Touch of Magic
- arxiv url: http://arxiv.org/abs/2005.12175v2
- Date: Mon, 24 Aug 2020 21:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 06:12:25.542464
- Title: Formal Methods with a Touch of Magic
- Title(参考訳): 魔法の触覚による形式的手法
- Authors: Parand Alizadeh Alamdari, Guy Avni, Thomas A. Henzinger, Anna Lukina
- Abstract要約: 両分野の技法を組み合わせることで,コントローラ設計の問題に対処する。
深層強化学習(Deep RL)におけるブラックボックスニューラルネットワークの利用は、このような組み合わせの課題を招いている。
我々は、深いRLや形式的手法で実現不可能な問題に単独で対処することができる。
- 参考スコア(独自算出の注目度): 9.561645914887007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning and formal methods have complimentary benefits and
drawbacks. In this work, we address the controller-design problem with a
combination of techniques from both fields. The use of black-box neural
networks in deep reinforcement learning (deep RL) poses a challenge for such a
combination. Instead of reasoning formally about the output of deep RL, which
we call the {\em wizard}, we extract from it a decision-tree based model, which
we refer to as the {\em magic book}. Using the extracted model as an
intermediary, we are able to handle problems that are infeasible for either
deep RL or formal methods by themselves. First, we suggest, for the first time,
combining a magic book in a synthesis procedure. We synthesize a stand-alone
correct-by-design controller that enjoys the favorable performance of RL.
Second, we incorporate a magic book in a bounded model checking (BMC)
procedure. BMC allows us to find numerous traces of the plant under the control
of the wizard, which a user can use to increase the trustworthiness of the
wizard and direct further training.
- Abstract(参考訳): 機械学習と形式的手法には補足的な利点と欠点がある。
本研究では,両分野の手法の組み合わせにより,コントローラ設計問題に対処する。
深層強化学習(deep rl)におけるブラックボックスニューラルネットワークの使用は、そのような組み合わせにとって課題となる。
深い rl の出力について正式に推論する代わりに、それを決定木に基づくモデルとして抽出し、それを "em magic book} と呼ぶ。
抽出したモデルを中間体として使用することで,深いrlや形式的手法では実現不可能な問題を自身で処理することができる。
まず最初に、魔法の本を合成手順で組み合わせることを提案する。
RLの良好な性能を享受するスタンドアローンの正設計コントローラを合成する。
次に、境界モデル検査(BMC)手順にマジックブックを組み込む。
BMCは、ウィザードの制御下にある多くの植物跡を見つけることができるので、ユーザーはウィザードの信頼性を高め、さらなる訓練を行うことができる。
関連論文リスト
- Reinforcement Learning with Token-level Feedback for Controllable Text Generation [16.117006822479407]
token-Level rewards for controllable text generationを定式化するTOLEという新しい強化学習アルゴリズムを提案する。
実験結果から,本アルゴリズムは単一属性と複数属性の制御タスクにおいて,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T08:18:37Z) - Compressing Deep Reinforcement Learning Networks with a Dynamic
Structured Pruning Method for Autonomous Driving [63.155562267383864]
深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。
DRLモデルは、必然的に高いメモリ消費と計算をもたらし、リソース限定の自動運転デバイスへの広範な展開を妨げる。
そこで本研究では,DRLモデルの非重要なニューロンを段階的に除去する,新しい動的構造化プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T09:00:30Z) - Efficient Reinforcement Learning for Jumping Monopods [7.288658659161598]
単足動物を目標にジャンプさせるという複雑な制御問題を考察する。
これは、非常に困難で計算コストのかかる、はるかに大きなクラスの問題のテンプレートである。
本稿では,物理知識を注入することにより,RLフレームワーク内での学習プロセスをガイドする。
論文 参考訳(メタデータ) (2023-09-13T15:46:40Z) - DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion
Models [97.31200133440308]
我々は、オンライン強化学習を用いて、テキスト・ツー・イメージモデルを微調整する。
拡散モデルに焦点をあて、微調整タスクをRL問題として定義する。
我々のアプローチはDPOKと呼ばれ、政策最適化とKL正規化を統合している。
論文 参考訳(メタデータ) (2023-05-25T17:35:38Z) - On the Stepwise Nature of Self-Supervised Learning [0.0]
本稿では, 自己教師あり学習法を組み込んだ共同学習の学習過程について, 簡単な図面を提示する。
これらの手法は, 離散的, 分離されたステップの列において, 1次元の高次元埋め込みを同時に学習する。
我々の理論は、カーネル回帰を教師付き学習のモデルと考えることができるように、カーネルPCAは自己教師付き学習の有用なモデルとして機能する可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-03-27T17:59:20Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - PC-MLP: Model-based Reinforcement Learning with Policy Cover Guided
Exploration [15.173628100049129]
本研究では,カーネル化レギュレータ(KNR)と線形マルコフ決定過程(MDP)のモデルベースアルゴリズムについて検討する。
両方のモデルに対して、我々のアルゴリズムはサンプルの複雑さを保証し、プランニングオラクルへのアクセスのみを使用する。
また,提案手法は報酬のない探索を効率的に行うことができる。
論文 参考訳(メタデータ) (2021-07-15T15:49:30Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Deep Adversarial Reinforcement Learning for Object Disentangling [36.66974848126079]
本稿では, 廃棄物の密接化を図り, 対人強化学習(ARL)フレームワークを提案する。
ARLフレームワークは、元のエージェントであるプロタゴニストを挑戦する状態に操るために訓練された敵を利用する。
本手法は,ロボット制御のためのエンドツーエンドシステムを用いて,難易度の高い物体分離タスクを学習することにより,シナリオの学習からテストまでを一般化できることを示す。
論文 参考訳(メタデータ) (2020-03-08T13:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。