論文の概要: Verifiable and Compositional Reinforcement Learning Systems
- arxiv url: http://arxiv.org/abs/2106.05864v1
- Date: Mon, 7 Jun 2021 17:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:36:54.455899
- Title: Verifiable and Compositional Reinforcement Learning Systems
- Title(参考訳): 検証・構成可能な強化学習システム
- Authors: Cyrus Neary, Christos Verginis, Murat Cubuktepe, Ufuk Topcu
- Abstract要約: このフレームワークは、パラメトリックマルコフ決定プロセス(pMDP)として表される高レベルモデルで構成されている。
サブシステム間のインターフェースを定義することで、フレームワークはタスク仕様の自動分解を可能にする。
サブタスク仕様を自動的に更新する手法として,pMDPにおけるパラメータの最適セットの探索問題として定式化された手法を提案する。
- 参考スコア(独自算出の注目度): 19.614913673879474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel framework for verifiable and compositional reinforcement
learning (RL) in which a collection of RL sub-systems, each of which learns to
accomplish a separate sub-task, are composed to achieve an overall task. The
framework consists of a high-level model, represented as a parametric Markov
decision process (pMDP) which is used to plan and to analyze compositions of
sub-systems, and of the collection of low-level sub-systems themselves. By
defining interfaces between the sub-systems, the framework enables automatic
decompositons of task specifications, e.g., reach a target set of states with a
probability of at least 0.95, into individual sub-task specifications, i.e.
achieve the sub-system's exit conditions with at least some minimum
probability, given that its entry conditions are met. This in turn allows for
the independent training and testing of the sub-systems; if they each learn a
policy satisfying the appropriate sub-task specification, then their
composition is guaranteed to satisfy the overall task specification.
Conversely, if the sub-task specifications cannot all be satisfied by the
learned policies, we present a method, formulated as the problem of finding an
optimal set of parameters in the pMDP, to automatically update the sub-task
specifications to account for the observed shortcomings. The result is an
iterative procedure for defining sub-task specifications, and for training the
sub-systems to meet them. As an additional benefit, this procedure allows for
particularly challenging or important components of an overall task to be
determined automatically, and focused on, during training. Experimental results
demonstrate the presented framework's novel capabilities.
- Abstract(参考訳): 本稿では,個別のサブタスクの実現を学習するrlサブシステムの集合が,タスク全体を達成するために構成される,検証および構成強化学習(rl)のための新しい枠組みを提案する。
このフレームワークは、パラメトリックマルコフ決定プロセス(pMDP)として表される高レベルモデルで構成されており、サブシステムの構成を計画し分析し、低レベルのサブシステム自体の収集に使用される。
サブシステム間のインターフェースを定義することで、このフレームワークはタスク仕様の自動分解を可能にする。例えば、ターゲットのステートセットに少なくとも 0.95 の確率で到達し、個々のサブタスク仕様に到達できる。
エントリー条件が満たされていることを考慮すれば、サブシステムの終了条件を少なくともある程度の確率で達成する。
これにより、サブシステムの独立したトレーニングとテストが可能になり、それぞれが適切なサブタスク仕様を満たすポリシーを学ぶと、それらの構成が全体的なタスク仕様を満たすことが保証される。
逆に、サブタスク仕様が学習ポリシーで満たされない場合、pMDPにおけるパラメータの最適セットを見つける問題として定式化され、サブタスク仕様を自動的に更新し、観察された欠点を考慮に入れる方法を提案する。
その結果は、サブタスク仕様を定義し、サブシステムに適合するようにトレーニングするための反復的な手順である。
追加の利点として、この手順により、トレーニング中に、全体的なタスクの特に挑戦的または重要なコンポーネントを自動的に決定し、集中することができる。
実験結果は,提案フレームワークの新たな機能を示す。
関連論文リスト
- Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - Efficient Reactive Synthesis Using Mode Decomposition [0.0]
そこで本研究では,モードに基づく新しい分解アルゴリズムを提案する。
我々のアルゴリズムへの入力は、元の仕様とモードの記述である。
サブ仕様の自動生成方法を示し、全てのサブプロブレムが実現可能であれば、完全な仕様が実現可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T08:01:35Z) - Verifiable Reinforcement Learning Systems via Compositionality [19.316487056356298]
本稿では,RLサブシステムの集合が構成され,全体的な課題を達成するための,検証および構成強化学習(RL)の枠組みを提案する。
本論では,各サブシステムがサブタスク仕様を満たすポリシーを学習した場合,その構成が全体のタスク仕様を満たすことを保証している。
本稿では,高レベルモデルにおけるパラメータの最適セットを求める問題として定式化された手法を提案する。
論文 参考訳(メタデータ) (2023-09-09T17:11:44Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Quantifying Adaptability in Pre-trained Language Models with 500 Tasks [60.0364822929442]
本稿では,新しいベンチマークであるTaskBench500を用いて,LM適応性の特徴と限界に関する大規模な実証的研究を行う。
我々は適応性の3つの側面を評価し、適応手順が小さなデータセットを記憶する能力において劇的に異なることを発見した。
実験の結果、新しいタスクへの適応性、例えば新しい例への一般化は体系的に記述され、理解されることがわかった。
論文 参考訳(メタデータ) (2021-12-06T18:00:25Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。