論文の概要: Verifiable Reinforcement Learning Systems via Compositionality
- arxiv url: http://arxiv.org/abs/2309.06420v1
- Date: Sat, 9 Sep 2023 17:11:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 11:51:25.832064
- Title: Verifiable Reinforcement Learning Systems via Compositionality
- Title(参考訳): 構成性による検証可能な強化学習システム
- Authors: Cyrus Neary, Aryaman Singh Samyal, Christos Verginis, Murat Cubuktepe,
Ufuk Topcu
- Abstract要約: 本稿では,RLサブシステムの集合が構成され,全体的な課題を達成するための,検証および構成強化学習(RL)の枠組みを提案する。
本論では,各サブシステムがサブタスク仕様を満たすポリシーを学習した場合,その構成が全体のタスク仕様を満たすことを保証している。
本稿では,高レベルモデルにおけるパラメータの最適セットを求める問題として定式化された手法を提案する。
- 参考スコア(独自算出の注目度): 19.316487056356298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework for verifiable and compositional reinforcement
learning (RL) in which a collection of RL subsystems, each of which learns to
accomplish a separate subtask, are composed to achieve an overall task. The
framework consists of a high-level model, represented as a parametric Markov
decision process, which is used to plan and analyze compositions of subsystems,
and of the collection of low-level subsystems themselves. The subsystems are
implemented as deep RL agents operating under partial observability. By
defining interfaces between the subsystems, the framework enables automatic
decompositions of task specifications, e.g., reach a target set of states with
a probability of at least 0.95, into individual subtask specifications, i.e.
achieve the subsystem's exit conditions with at least some minimum probability,
given that its entry conditions are met. This in turn allows for the
independent training and testing of the subsystems. We present theoretical
results guaranteeing that if each subsystem learns a policy satisfying its
subtask specification, then their composition is guaranteed to satisfy the
overall task specification. Conversely, if the subtask specifications cannot
all be satisfied by the learned policies, we present a method, formulated as
the problem of finding an optimal set of parameters in the high-level model, to
automatically update the subtask specifications to account for the observed
shortcomings. The result is an iterative procedure for defining subtask
specifications, and for training the subsystems to meet them. Experimental
results demonstrate the presented framework's novel capabilities in
environments with both full and partial observability, discrete and continuous
state and action spaces, as well as deterministic and stochastic dynamics.
- Abstract(参考訳): 本稿では,個別のサブタスクの実現を学習するrlサブシステムの集合が,タスク全体を達成するために構成される,検証および構成強化学習(rl)のためのフレームワークを提案する。
このフレームワークはハイレベルモデルで構成されており、パラメトリックマルコフ決定プロセスとして表現され、サブシステムの構成を計画し、分析するのに使われ、低レベルサブシステム自体の収集に使われる。
サブシステムは部分可観測性の下で動作している深部RLエージェントとして実装されている。
サブシステム間のインターフェースを定義することにより、このフレームワークは、タスク仕様の自動分解を可能にする。例えば、少なくとも 0.95 の確率で、個々のサブタスク仕様にターゲットのステートセットに到達し、つまり、サブシステムの終了条件を少なくともある程度の確率で達成することができる。
これにより、サブシステムの独立したトレーニングとテストが可能になる。
各サブシステムがサブタスク仕様を満たすポリシーを学習した場合、それらの構成がタスク仕様全体を満たすことを保証した理論的結果を示す。
逆に、サブタスク仕様が学習したポリシーですべて満足できない場合は、高レベルモデルで最適なパラメータセットを見つける問題として定式化されたメソッドを提示し、観察された欠点を考慮に入れたサブタスク仕様の自動更新を行う。
その結果、サブタスク仕様を定義し、サブシステムをトレーニングしてそれらを満たすための反復的な手順が得られます。
実験結果は、完全可観測性と部分可観測性、離散状態と連続状態とアクション空間、および決定論的および確率的ダイナミクスを持つ環境におけるフレームワークの新しい能力を示す。
関連論文リスト
- Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Efficient Reactive Synthesis Using Mode Decomposition [0.0]
そこで本研究では,モードに基づく新しい分解アルゴリズムを提案する。
我々のアルゴリズムへの入力は、元の仕様とモードの記述である。
サブ仕様の自動生成方法を示し、全てのサブプロブレムが実現可能であれば、完全な仕様が実現可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T08:01:35Z) - Compositional Policy Learning in Stochastic Control Systems with Formal
Guarantees [0.0]
強化学習は複雑な制御タスクに対するニューラルネットワークポリシーの学習において有望な結果を示している。
本研究では,環境におけるニューラルネットワークポリシーの構成を学習するための新しい手法を提案する。
正式な証明書は、ポリシーの行動に関する仕様が望ましい確率で満たされていることを保証します。
論文 参考訳(メタデータ) (2023-12-03T17:04:18Z) - Verified Compositional Neuro-Symbolic Control for Stochastic Systems
with Temporal Logic Tasks [11.614036749291216]
自律エージェントのためのニューラルネットワーク(NN)コントローラを学ぶために、最近いくつかの方法が提案されている。
これらのアプローチにおける重要な課題は、しばしば安全保証が欠如しているか、提供された保証が現実的でないことである。
本稿では,訓練されたNNコントローラの時間的構成が存在するかどうかを確認することで,この問題に対処することを目的とする。
論文 参考訳(メタデータ) (2023-11-17T20:51:24Z) - Hybrid Rule-Neural Coreference Resolution System based on Actor-Critic
Learning [53.73316523766183]
コアレゾリューションシステムは2つの主要なタスクに取り組む必要がある。
ひとつのタスクは、潜在的な言及のすべてを検出することであり、もう1つは、可能な言及ごとに前者のリンクを学習することである。
本稿では,アクター・クリティカル・ラーニングに基づく複合ルール・ニューラル・コア参照解決システムを提案する。
論文 参考訳(メタデータ) (2022-12-20T08:55:47Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - Verifiable and Compositional Reinforcement Learning Systems [19.614913673879474]
このフレームワークは、パラメトリックマルコフ決定プロセス(pMDP)として表される高レベルモデルで構成されている。
サブシステム間のインターフェースを定義することで、フレームワークはタスク仕様の自動分解を可能にする。
サブタスク仕様を自動的に更新する手法として,pMDPにおけるパラメータの最適セットの探索問題として定式化された手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T17:05:14Z) - Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文 参考訳(メタデータ) (2021-03-19T18:13:35Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。