論文の概要: Skill Machines: Temporal Logic Composition in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.12532v1
- Date: Wed, 25 May 2022 07:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 10:33:30.306346
- Title: Skill Machines: Temporal Logic Composition in Reinforcement Learning
- Title(参考訳): スキルマシン:強化学習における時相論理構成
- Authors: Geraud Nangue Tasse, Devon Jarvis, Steven James, Benjamin Rosman
- Abstract要約: 強化学習における大きな課題は、解釈可能かつ検証可能な方法でタスクを指定することである。
このような課題に対するソリューションをエンコードする報奨機から直接学習可能な,スキルマシンを紹介します。
- 参考スコア(独自算出の注目度): 13.10774216558024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major challenge in reinforcement learning is specifying tasks in a manner
that is both interpretable and verifiable. One common approach is to specify
tasks through reward machines -- finite state machines that encode the task to
be solved. We introduce skill machines, a representation that can be learned
directly from these reward machines that encode the solution to such tasks. We
propose a framework where an agent first learns a set of base skills in a
reward-free setting, and then combines these skills with the learned skill
machine to produce composite behaviours specified by any regular language, such
as linear temporal logics. This provides the agent with the ability to map from
complex logical task specifications to near-optimal behaviours zero-shot. We
demonstrate our approach in both a tabular and high-dimensional video game
environment, where an agent is faced with several of these complex,
long-horizon tasks. Our results indicate that the agent is capable of
satisfying extremely complex task specifications, producing near optimal
performance with no further learning. Finally, we demonstrate that the
performance of skill machines can be improved with regular offline
reinforcement learning algorithms when optimal behaviours are desired.
- Abstract(参考訳): 強化学習における大きな課題は、解釈可能かつ検証可能な方法でタスクを指定することである。
1つの一般的なアプローチは、報酬マシン -- 解決すべきタスクをエンコードする有限状態マシン -- を通じてタスクを指定することである。
このようなタスクの解決策をエンコードした報酬マシンから直接学習可能な,スキルマシンを紹介します。
エージェントがまず報酬のない環境で基本スキルのセットを学習し、次にこれらのスキルを学習スキルマシンと組み合わせて、線形時間論理などの正規言語で指定された複合動作を生成するフレームワークを提案する。
これによりエージェントは、複雑な論理的タスク仕様からほぼ最適の振る舞いをゼロショットにマッピングできる。
エージェントがこれらの複雑な長方形タスクのいくつかに直面した,表型および高次元のゲーム環境において,我々のアプローチを実証する。
以上の結果から,エージェントは極めて複雑なタスク仕様を満足でき,さらに学習することなくほぼ最適な性能を得られることが示された。
最後に,適切な動作が要求される場合,オフライン強化学習アルゴリズムにより,スキルマシンの性能が向上することを示す。
関連論文リスト
- Counting Reward Automata: Sample Efficient Reinforcement Learning
Through the Exploitation of Reward Function Structure [13.231546105751015]
本稿では,形式言語として表現可能な任意の報酬関数をモデル化可能な有限状態機械変種であるカウント・リワード・オートマトンを提案する。
このような抽象機械を組み込んだエージェントが,現在の手法よりも大きなタスクの集合を解くことができることを実証する。
論文 参考訳(メタデータ) (2023-12-18T17:20:38Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - Reinforcement Learning Agent Training with Goals for Real World Tasks [3.747737951407512]
強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
論文 参考訳(メタデータ) (2021-07-21T23:21:16Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - Learning and Sequencing of Object-Centric Manipulation Skills for
Industrial Tasks [16.308562047398542]
本稿では,オブジェクト中心の隠れセミマルコフモデルを用いて,ロボットのスキルシーケンスを高速に符号化するアルゴリズムを提案する。
学習したスキルモデルは、多モーダルな(時間的および空間的な)軌道分布を符号化することができる。
本研究では,産業用組立作業用ロボットアーム7台について実演する。
論文 参考訳(メタデータ) (2020-08-24T14:20:05Z) - A Composable Specification Language for Reinforcement Learning Tasks [23.08652058034537]
本稿では,複雑な制御タスクを特定するための言語と,言語仕様を報酬関数にコンパイルし,報酬形成を自動的に行うアルゴリズムを提案する。
我々は、SPECTRLと呼ばれるツールにアプローチを実装し、最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-21T03:40:57Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。